論文の概要: Federation of Experts: Communication Efficient Distributed Inference for Large Language Models
- arxiv url: http://arxiv.org/abs/2605.06206v1
- Date: Thu, 07 May 2026 13:12:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.818101
- Title: Federation of Experts: Communication Efficient Distributed Inference for Large Language Models
- Title(参考訳): エキスパートの連合:大規模言語モデルのためのコミュニケーション効率の良い分散推論
- Authors: Muhammad Shahir Abdurrahman, Chun Deng, Azalia Mirhoseini, Philip Levis,
- Abstract要約: 本稿では,FoE(Federation of Experts)アーキテクチャについて紹介する。
FoEはトランス層のMoEブロックを複数のMoEクラスタに再構成する。
LongBenchでは、FoEは推論のスループットとレイテンシを大幅に改善する。
- 参考スコア(独自算出の注目度): 2.623258779942273
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Mixture of experts has emerged as the primary mechanism for making Large Language Models (LLMs) computationally efficient. However, in distributed settings, communicating token embeddings between experts is a significant bottleneck. We present the novel Federation of Experts (FoE) architecture. FoE restructures the MoE block of a transformer layer into multiple MoE clusters. Each cluster is responsible for only one of the KV heads and expert parallelism is applied between those experts. Between clusters, a sum synchronizes the post-attention residuals, which then drives routing and dispatch for the next MoE block. In a single-node setting, FoE completely eliminates all-to-all communication as all experts within a group are contained on the same GPU. In multi-node settings, FoE confines all-to-all communication to the intra-node fabric, thus significantly reducing communication overhead. An implementation of FoE finds that on LongBench, FoE significantly improves inference throughput and latency in both single-node and multi-node settings, reducing the end-to-end forward-pass latency by up to 5.2x, TTFT by 3.62x, and TBT by 1.95x. It does so while achieving comparable generation quality to a mixture of experts model of the same size and training configuration.
- Abstract(参考訳): LLM(Large Language Models)を計算的に効率的にするための主要なメカニズムとして、専門家の混在が出現している。
しかし、分散環境では、専門家間のトークンの埋め込みが重大なボトルネックとなる。
本稿では,FoE(Federation of Experts)アーキテクチャについて紹介する。
FoEはトランス層のMoEブロックを複数のMoEクラスタに再構成する。
各クラスタはKVヘッドの1つにのみ責任を持ち、専門家の並列性は専門家の間で適用される。
クラスタ間で、sumはアテンション後の残余を同期させ、次のMoEブロックへのルーティングとディスパッチを駆動する。
単一ノード設定では、FoEはグループ内のすべての専門家が同じGPUに含まれているため、すべての通信を完全に排除する。
マルチノード設定では、FoEは全対全通信をノード内ファブリックに限定し、通信オーバーヘッドを大幅に削減する。
FoEの実装により、LongBenchではシングルノードとマルチノードの両方で推論のスループットとレイテンシが大幅に向上し、エンドツーエンドのフォワードパスのレイテンシが最大5.2倍、TTFTが3.62倍、TBTが1.95倍になった。
同じサイズとトレーニング構成のエキスパートモデルの混合に匹敵する世代品質を達成できる。
関連論文リスト
- Scaling Multi-Node Mixture-of-Experts Inference Using Expert Activation Patterns [10.028141800987548]
スケールでのMoE推論は、専門家の負荷不均衡と非効率なトークンルーティングによってボトルネックとなる。
Llama 4 Maverick, DeepSeek V3-671B, Qwen3-230B-A22B など, SOTA のオープンソース MoE モデルについて検討した。
これらの知見から,ワークロード対応のマイクロバッチグループ化と専門家配置戦略を提案する。
論文 参考訳(メタデータ) (2026-04-25T05:33:03Z) - Chain-of-Experts: Unlocking the Communication Power of Mixture-of-Experts Models [58.54288496296157]
CoE(Chain-of-Experts)は新しいMixture-of-Experts(MoE)アーキテクチャで、各レイヤ内でのシーケンシャルな専門家通信を導入している。
イテレーション間の動的専門家選択をサポートするために、CoEはレイヤ内の各ステップに専用のルータを使用している。
論文 参考訳(メタデータ) (2025-06-23T02:15:43Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts [63.67734699877724]
MoE++は、Feed-Forward Network(FFN)とゼロ計算の専門家を統合した、汎用的で異種なMoEフレームワークである。
MoE++は、1.1-2.1xのエキスパートの前方スループットを同じサイズのバニラのMoEモデルと比較すると、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-10-09T18:01:27Z) - T-REX: Mixture-of-Rank-One-Experts with Semantic-aware Intuition for Multi-task Large Language Model Finetuning [31.276142111455847]
大規模言語モデル(LLM)は多様なマルチタスクの微調整において重要な適応課題に直面している。
我々はmixunderlinetextbfTureunderlinetextbf-of-underlinetextbfRank-onunderlinetextbfE-eunderlinetextbfXper ts (textttT-REX) という新しいフレームワークを設計する。
Rank-1のエキスパートは、ミックス・アンド・マッチのメカニズムにより、線形パラメータのオーバーヘッドを持つエキスパートのベクトル部分空間を2次に拡張し、最適で近似誤差削減を達成することができる。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - Exploiting Inter-Layer Expert Affinity for Accelerating
Mixture-of-Experts Model Inference [3.217776693788795]
本稿では,事前学習したMoEモデルの推論を高速化するために,ExFlowと呼ばれる軽量な最適化手法を提案する。
層間エキスパート親和性を利用して, 微調整や精度の低下を伴わずに, 事前学習したMoEモデルに直接適用することができる。
我々のソリューションは、8から64のエキスパートによる最先端のMoE実装を破り、推論スループットを最大2.2倍改善しました。
論文 参考訳(メタデータ) (2024-01-16T14:16:47Z) - Pipeline MoE: A Flexible MoE Implementation with Pipeline Parallelism [91.9372563527801]
既存のMoEモデルは、膨大な内部ノードとノード間通信オーバーヘッドに悩まされる。
本稿では,新しいMoEアーキテクチャであるPipeline MoE(PPMoE)を提案する。
PPMoEは、テンソル並列を組み込んだ専門家の並列処理を構築し、通信集約型の全対一のディスパッチとコレクションを置き換える。
論文 参考訳(メタデータ) (2023-04-22T14:09:14Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。