論文の概要: Orchestrating Heterogeneous Experts: A Scalable MoE Framework with Anisotropy-Preserving Fusion
- arxiv url: http://arxiv.org/abs/2602.00003v2
- Date: Tue, 03 Feb 2026 07:03:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 02:03:42.171235
- Title: Orchestrating Heterogeneous Experts: A Scalable MoE Framework with Anisotropy-Preserving Fusion
- Title(参考訳): 異方性のあるエキスパートをオーケストレーションする - 異方性保存融合を備えたスケーラブルなMoEフレームワーク
- Authors: Ye Liu, Xu Chen, Wuji Chen, Mang Li,
- Abstract要約: 国境を越えたeコマースは、極端な言語的多様性ときめ細かい意味的ニュアンスという2つの課題に直面している。
既存のアプローチは通常、単一のモノリシックな大規模言語モデル(LLM)のスケールアップに依存します。
本稿では,異なるオープンソース LLM の相補性を生かした,スケーラブルな粗粒混合処理(Mixture-of-Experts:MoE)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.664206410314955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In cross-border e-commerce, search relevance modeling faces the dual challenge of extreme linguistic diversity and fine-grained semantic nuances. Existing approaches typically rely on scaling up a single monolithic Large Language Model (LLM). However, our empirical analysis reveals that single models suffer from uneven capability distributions across regions. For example, excelling in English while underperforming in specific Southeast Asian languages. In this work, we shift the paradigm from scaling a single model to orchestrating heterogeneous experts. We propose a scalable Coarse-grained Mixture-of-Experts (MoE) framework that leverages the inherent complementarity of distinct open-source LLMs (e.g., Qwen, Gemma) without expensive pre-training. Unlike standard token-level MoE, our framework dynamically routes entire queries to specialized experts and, crucially, employs an Information-Preserving Concatenation Fusion strategy. We theoretically posit that preserving the distinct embedding manifolds of heterogeneous experts-rather than compressing them via weighted averaging-is essential for capturing complex relevance signals in a multi-model latent space. On datasets spanning six Southeast Asian markets, our MoE improves AUC by 0.72 percentage points over a dense baseline with the same active parameters. Meanwhile, the optimized pipeline achieves 13.72 queries per second (QPS), a 9% throughput improvement.
- Abstract(参考訳): 国境を越えたeコマースでは、検索関連モデリングは極端な言語的多様性ときめ細かい意味的ニュアンスという2つの課題に直面している。
既存のアプローチは通常、単一のモノリシックな大規模言語モデル(LLM)のスケールアップに依存します。
しかし、実証分析により、単一モデルが各領域に不均一な能力分布に悩まされていることが明らかとなった。
例えば、東南アジアの特定の言語ではパフォーマンスが劣りながら英語が得意である。
この作業では、パラダイムを単一のモデルをスケールすることから、異種専門家の組織化にシフトします。
本稿では,オープンソースのLCM(例えば Qwen や Gemma など)を,高価な事前学習を伴わずに相補性を生かした,スケーラブルな粗粒度混合処理(MoE)フレームワークを提案する。
標準的なトークンレベルのMoEとは異なり、我々のフレームワークはクエリ全体を専門の専門家に動的にルーティングする。
我々は、重み付き平均化により圧縮するよりも、異種専門家の異なる埋め込み多様体を保存することは、多モデル潜在空間における複素関連信号の取得に不可欠である、と理論的に仮定する。
東南アジアの6つのマーケットにまたがるデータセットについて、当社のMoEはAUCを、同じアクティブパラメータを持つ密度の高いベースライン上で0.72ポイント改善しています。
一方、最適化されたパイプラインは毎秒13.72クエリ(QPS)を実現し、スループットは9%向上した。
関連論文リスト
- MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping [52.02659589971978]
我々は,MoE MLLM推論を効果的かつ正確なものにするために,専門家を適応的にスキップする最初のトレーニングフリーフレームワークであるMoDESを提案する。
MoDESは推論速度を大幅に向上させ、プリフィルタイムを2.16$times$、デコードタイムを1.26$times$に改善する。
論文 参考訳(メタデータ) (2025-11-19T18:48:27Z) - AsyMoE: Leveraging Modal Asymmetry for Enhanced Expert Specialization in Large Vision-Language Models [15.495054753492584]
この非対称性を3つの専門的専門家群を用いてモデル化する新しいアーキテクチャであるAsyMoEを提案する。
我々は、モダリティ固有の処理のためのモダリティ内エキスパート、階層的相互モーダル相互作用のためのモダリティ間エキスパート、およびパラメトリックバイアスを抑えるためのエビデンス-プライオリティ言語エキスパートを設計し、文脈的基盤を維持する。
AsyMoEは26.58%、精度は15.45%で、バニラMoEとモダリティ比のMoEは25.45%、高密度モデルは25.45%である。
論文 参考訳(メタデータ) (2025-09-16T06:16:05Z) - Mixture of Experts Made Intrinsically Interpretable [34.36996159677674]
我々は,emphintrinsically interpretableとして設計されたMixture-of-Experts (MoE)言語モデルである textbfMoE-X を提案する。
我々のアプローチは、言語モデルにおいて、スパースアクティベーションを持つより広いネットワークが解釈可能な要因を捉える傾向にあるという観察に動機づけられている。
MoE-X は GPT-2 よりもパープレキシティが良く、解釈性はスパースオートエンコーダ (SAE) ベースのアプローチを超えている。
論文 参考訳(メタデータ) (2025-03-05T17:40:54Z) - Retraining-Free Merging of Sparse MoE via Hierarchical Clustering [24.28646376876676]
本稿では, 疎活性化型エキスパート混合(HC-SMoE)のための階層クラスタリングについて紹介する。
HC-SMoEは、パラメータ還元のためのタスクに依存しないエキスパートマージフレームワークである。
我々は、QwenやMixtralを含む最先端モデルにおけるHC-SMoEの有効性を示すために、複数のゼロショット言語タスクの理論的解析と評価を行う。
論文 参考訳(メタデータ) (2024-10-11T07:36:14Z) - Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training [73.90260246781435]
私たちは、このようなアーキテクチャを自動回帰言語モデルに拡張する最初のアプローチであるLoryを紹介します。
パラメータマッチングされた高密度モデルよりも、多種多様な下流タスクにおいて顕著な性能向上を示す。
セグメントレベルのルーティングにもかかわらず、Loryモデルはトークンレベルのルーティングを備えた最先端のMoEモデルと比較して、競合的なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-06T03:06:33Z) - Multi-Head Mixture-of-Experts [100.60556163597946]
MH-MoE(Multi-Head Mixture-of-Experts)を提案する。
MH-MoEは、他のSMoE最適化手法の実装と分離が容易であり、性能向上のために他のSMoEモデルとの統合が容易である。
論文 参考訳(メタデータ) (2024-04-23T13:47:09Z) - Exploiting Inter-Layer Expert Affinity for Accelerating
Mixture-of-Experts Model Inference [3.217776693788795]
本稿では,事前学習したMoEモデルの推論を高速化するために,ExFlowと呼ばれる軽量な最適化手法を提案する。
層間エキスパート親和性を利用して, 微調整や精度の低下を伴わずに, 事前学習したMoEモデルに直接適用することができる。
我々のソリューションは、8から64のエキスパートによる最先端のMoE実装を破り、推論スループットを最大2.2倍改善しました。
論文 参考訳(メタデータ) (2024-01-16T14:16:47Z) - Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文 参考訳(メタデータ) (2023-10-15T07:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。