論文の概要: Chain-of-Experts: Unlocking the Communication Power of Mixture-of-Experts Models
- arxiv url: http://arxiv.org/abs/2506.18945v1
- Date: Mon, 23 Jun 2025 02:15:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.30676
- Title: Chain-of-Experts: Unlocking the Communication Power of Mixture-of-Experts Models
- Title(参考訳): Chain-of-Experts:Mixture-of-Expertsモデルの通信パワーを解き放つ
- Authors: Zihan Wang, Rui Pan, Jiarui Yao, Robert Csordas, Linjie Li, Lu Yin, Jiajun Wu, Tong Zhang, Manling Li, Shiwei Liu,
- Abstract要約: CoE(Chain-of-Experts)は新しいMixture-of-Experts(MoE)アーキテクチャで、各レイヤ内でのシーケンシャルな専門家通信を導入している。
イテレーション間の動的専門家選択をサポートするために、CoEはレイヤ内の各ステップに専用のルータを使用している。
- 参考スコア(独自算出の注目度): 58.54288496296157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Chain-of-Experts (CoE), a new Mixture-of-Experts (MoE) architecture that introduces sequential expert communication within each layer. Unlike traditional MoE models, where experts operate independently in parallel, CoE processes tokens iteratively across a chain of experts inside a layer. To support dynamic expert selection across iterations, CoE employs a dedicated router at each iteration step within a layer. This design allows tokens to re-evaluate and select different experts during each iteration, rather than being statically assigned. As a result, CoE introduces a flexible routing mechanism that increases the diversity of expert combinations and enriches the model's representational capacity. CoE demonstrates improved performance under fixed compute: on math reasoning tasks, it reduces validation loss from 1.20 to 1.12 compared to a standard MoE. Beyond performance, CoE offers a new scaling axis: depth through expert iteration, which complements conventional width/depth scaling. For example, using 2x iterations matches the performance of 3x expert selections (in width), while reducing memory usage by 17.6-42% relative to other scaling strategies. Our analysis reveals that CoE's benefits stem from its iterative residual structure and enhanced expert specialization empowered by iterative routing, which together unlock more expressive representations. Code is available at https://github.com/ZihanWang314/coe.
- Abstract(参考訳): そこで我々は,各層内での逐次的専門家通信を導入した新しいMixture-of-Experts (MoE)アーキテクチャであるChain-of-Experts (CoE)を提案する。
専門家が独立して運用する従来のMoEモデルとは異なり、CoEはレイヤ内の専門家の連鎖に対して反復的にトークンを処理する。
イテレーション間の動的専門家選択をサポートするために、CoEはレイヤ内の各イテレーションステップに専用のルータを使用している。
この設計により、トークンは静的に割り当てられるのではなく、各イテレーションで異なる専門家を再評価し、選択することができる。
その結果、CoEはフレキシブルなルーティング機構を導入し、専門家の組み合わせの多様性を高め、モデルの表現能力を強化する。
数学推論タスクでは、標準的なMoEに比べて検証損失が1.20から1.12に減少する。
パフォーマンス以外にも、CoEは新しいスケーリング軸 – エキスパートイテレーションによる深さ – を提供し、従来の幅/深さのスケーリングを補完する。
例えば、2倍の繰り返しの使用は、他のスケーリング戦略と比較してメモリ使用量を17.6-42%削減しながら、3倍のエキスパート選択(幅)のパフォーマンスと一致している。
分析の結果、CoEの利点は、反復的残差構造と、反復的ルーティングによって強化された専門家の専門化に起因していることが判明した。
コードはhttps://github.com/ZihanWang314/coe.comで入手できる。
関連論文リスト
- Not All Models Suit Expert Offloading: On Local Routing Consistency of Mixture-of-Expert Models [35.617468386609254]
Mixture-of-Experts (MoE) は、推論中に専門家がわずかに活性化された大きな言語モデルの効率的なスケーリングを可能にする。
多くのシステムでは,専門家のサブセットを高速メモリにキャッシュする*専門家オフロード*を導入している。
各層にMoEを適用し、共有専門家を使用しないモデルは、最も高い局所的なルーティング一貫性を示す。
論文 参考訳(メタデータ) (2025-05-21T22:13:09Z) - Union of Experts: Adapting Hierarchical Routing to Equivalently Decomposed Transformer [5.585222292493927]
提案するUnion-of-Experts(UoE)は,変圧器を等価な専門家グループに分解し,入力データとエキスパートを選択的にルーティングする。
実験により、UoEモデルはフルアテンション、最先端のMoE、効率的なトランスフォーマーを上回ることが示されている。
論文 参考訳(メタデータ) (2025-03-04T11:01:25Z) - Complexity Experts are Task-Discriminative Learners for Any Image Restoration [80.46313715427928]
複雑性の専門家" - 様々な計算複雑性と受容的なフィールドを持つフレキシブルな専門家ブロックを紹介します。
この選好は、タスク固有の割り当てを効果的に推進し、適切な複雑さを持つ専門家にタスクを割り当てる。
提案したMoCE-IRモデルは最先端の手法より優れており、その効率性と実用性が確認されている。
論文 参考訳(メタデータ) (2024-11-27T15:58:07Z) - MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts [63.67734699877724]
MoE++は、Feed-Forward Network(FFN)とゼロ計算の専門家を統合した、汎用的で異種なMoEフレームワークである。
MoE++は、1.1-2.1xのエキスパートの前方スループットを同じサイズのバニラのMoEモデルと比較すると、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-10-09T18:01:27Z) - Expert-Token Resonance MoE: Bidirectional Routing with Efficiency Affinity-Driven Active Selection [16.062265609569003]
Mixture-of-Experts (MoE)アーキテクチャは、大規模言語モデル(LLM)のパラダイムシフトアプローチとして登場した。
本稿では,(1)軽量計算を用いた効率的なルーティング機構,(2)エキスパートとトークンの共振を利用した適応的双方向選択機構,(3)動的トークン分布解析に基づくエキスパートキャパシティの下位境界を決定するモジュールを提案する。
論文 参考訳(メタデータ) (2024-05-24T02:50:44Z) - Unchosen Experts Can Contribute Too: Unleashing MoE Models' Power by Self-Contrast [58.98411447739218]
Mixture-of-Experts (MoE) は、計算効率を保ちながら、モデルサイズをスケールするための顕著なアーキテクチャとして登場した。
本研究では,無声専門家を推論中に自己コントラスト的に活用する学習自由戦略である自己コントラスト混合(SCMoE)を提案する。
我々の手法は概念的には単純で計算量も軽量であり、グリージー復号法に比べて最小限の遅延を発生させる。
論文 参考訳(メタデータ) (2024-05-23T12:45:29Z) - T-REX: Mixture-of-Rank-One-Experts with Semantic-aware Intuition for Multi-task Large Language Model Finetuning [31.276142111455847]
大規模言語モデル(LLM)は多様なマルチタスクの微調整において重要な適応課題に直面している。
我々はmixunderlinetextbfTureunderlinetextbf-of-underlinetextbfRank-onunderlinetextbfE-eunderlinetextbfXper ts (textttT-REX) という新しいフレームワークを設計する。
Rank-1のエキスパートは、ミックス・アンド・マッチのメカニズムにより、線形パラメータのオーバーヘッドを持つエキスパートのベクトル部分空間を2次に拡張し、最適で近似誤差削減を達成することができる。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。