Fugu-MT 論文翻訳(概要): Capacity-Aware Inference: Mitigating the Straggler Effect in Mixture of Experts

論文の概要: Capacity-Aware Inference: Mitigating the Straggler Effect in Mixture of Experts

arxiv url: http://arxiv.org/abs/2503.05066v3
Date: Fri, 23 May 2025 02:33:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-26 13:31:15.735323
Title: Capacity-Aware Inference: Mitigating the Straggler Effect in Mixture of Experts
Title（参考訳）: キャパシティ・アウェア推論:専門家の混在におけるストラグラー効果の緩和
Authors: Shwai He, Weilin Cai, Jiayi Huang, Ang Li,
Abstract要約: 専門家の並列性の下では、Mixture of Experts (MoE) は不均衡なトークン・ツー・エキスパートの割り当てによる推論の非効率さに悩まされる。オーバーロードされた専門家から過剰なトークンを廃棄することで、専門家の能力制限を強制するtextittextbfCapacity-Aware Token Dropを提案する。 textittextbfCapacity-Aware Expanded Dropも導入しています。トークンは、厳格なローカルキャパシティ制約を実施する前に、候補セットに追加のローカルエキスパートを含めることができます。
参考スコア（独自算出の注目度）: 9.393481672669564
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The Mixture of Experts (MoE) is an effective architecture for scaling large language models by leveraging sparse expert activation to balance performance and efficiency. However, under expert parallelism, MoE suffers from inference inefficiencies due to imbalanced token-to-expert assignment, where underloaded experts complete computations early but must wait for overloaded experts, leading to global delays. We define this phenomenon as the \textbf{\textit{Straggler Effect}}, as the most burdened experts dictate the overall inference latency. To address this, we first propose \textit{\textbf{Capacity-Aware Token Drop}}, which enforces expert capacity limits by discarding excess tokens from overloaded experts, effectively reducing load imbalance with minimal performance impact (e.g., $30\%$ speedup with only $0.9\%$ degradation on OLMoE). Next, given the presence of low-load experts remaining well below the capacity threshold, we introduce \textit{\textbf{Capacity-Aware Expanded Drop}}, which allows tokens to include additional local experts in their candidate set before enforcing strict local capacity constraints, thereby improving load balance and enhancing the utilization of underused experts. Extensive experiments on both language and multimodal MoE models demonstrate the effectiveness of our approach, yielding substantial gains in expert utilization, model performance, and inference efficiency, e.g., applying Expanded Drop to Mixtral-8$\times$7B-Instruct yields a {0.2\%} average performance improvement and a {1.85$\times$} inference speedup.
Abstract（参考訳）: Mixture of Experts (MoE)は、スパースエキスパートアクティベーションを利用してパフォーマンスと効率のバランスをとることで、大規模な言語モデルをスケールするための効果的なアーキテクチャである。しかし、専門家の並列性の下では、MoEは不均衡なトークン・ツー・エキスパートの割り当てによって推論の非効率に悩まされ、過負荷のエキスパートは早期に計算を完了するが、過負荷のエキスパートを待つ必要がある。我々は、この現象を、最も負荷のかかる専門家が全体の推論遅延を規定しているように、 \textbf{\textit{Straggler Effect}} と定義する。これは、過剰なトークンをオーバーロードされた専門家から取り除き、パフォーマンスへの影響を最小限に抑えながら負荷不均衡を効果的に低減し(例えば、$30\%$ OLMoEでわずか0.9\%$ しか分解しない)、専門家の能力制限を強制するものである。次に、キャパシティのしきい値よりかなり低い低負荷の専門家の存在を考慮し、厳格なローカルキャパシティ制約を課す前に、トークンが候補セットに追加のローカルエキスパートを組み込めるようにし、ロードバランスを改善し、未使用のエキスパートの利用を向上する、 \textit{\textbf{Capacity-Aware Expanded Drop}}を導入します。例えば、Mixtral-8$\times$7B-Instructing Expanded Drop to Mixtral-8$7B-Instruct yields a {0.2\%} average performance Improvement and a {1.85$\times$} inference speedup。

関連論文リスト

Finding Fantastic Experts in MoEs: A Unified Study for Expert Dropping Strategies and Observations [86.90549830760513]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。多様な視点から専門家の重要度を推定するためのベンチマークとして,MoE Experts Compression Suite (MC-Suite)を提案する。我々は,SMoEsの指示追従能力が主に損なわれるという,実験的に検証された予想を提示する。
論文参考訳（メタデータ） (2025-04-08T00:49:08Z)
Advancing MoE Efficiency: A Collaboration-Constrained Routing (C2R) Strategy for Better Expert Parallelism Design [36.35520569052556]
Mixture-of-Experts (MoE)は、ほぼ一定の計算コストを維持しながら、モデルをスケールアップすることに成功している。我々は、より専門的な専門家グループを促進するために、新しい協調制約付きルーティング(C2R)戦略を提案する。我々は10下流のNLPベンチマークで0.51%と0.33%の平均性能改善を実現した。
論文参考訳（メタデータ） (2025-04-02T03:51:59Z)
Accelerating MoE Model Inference with Expert Sharding [1.4733737463429546]
専門家の混合モデル(MoE)は、言語モデリングにおいて最先端の結果を得るが、不均衡なトークンルーティングと通信オーバーヘッドにより、非効率なハードウェア利用に悩まされる。我々は,MoEエキスパートのテンソルシャーディングを通じて,完全な負荷分散を実現する推論システムであるMoEShardを紹介する。
論文参考訳（メタデータ） (2025-03-11T14:15:01Z)
Efficiently Editing Mixture-of-Experts Models with Compressed Experts [22.868004724309845]
完全エキスパートのコンパクト表現として機能する軽量モジュールである圧縮された専門家の概念を提案する。我々のアプローチは、他の補助活性化専門家を圧縮専門家に置き換えながら、最も重要な専門家を保護します。
論文参考訳（メタデータ） (2025-03-01T22:00:03Z)
MoETuner: Optimized Mixture of Expert Serving with Balanced Expert Placement and Token Routing [0.6445605125467574]
Mixture-of-Experts (MoE)モデルアーキテクチャは、トランスフォーマーモデルを効率的にスケーリングするための有望なソリューションとして登場した。 MoEモデルはGPUデバイスに分散する必要があるため、重要なパフォーマンスボトルネックに直面している。本稿では,トークンルーティングコストとデバイス間のトークン処理バランスを最小化する,最適専門家対GPU割り当てを提案する。
論文参考訳（メタデータ） (2025-02-10T16:34:36Z)
HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。 HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文参考訳（メタデータ） (2024-11-03T04:25:46Z)
ExpertFlow: Optimized Expert Activation and Token Allocation for Efficient Mixture-of-Experts Inference [41.41316718220569]
ExpertFlowは、柔軟なルーティングを調整し、CPUとGPU間の効率的な専門家スケジューリングを可能にすることで、推論効率を向上させるように設計されている。実験により、ExpertFlowは最大93.72%のGPUメモリを節約し、ベースライン法に比べて推論速度を2～10倍に向上することを示した。
論文参考訳（メタデータ） (2024-10-23T15:24:54Z)
MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts [63.67734699877724]
MoE++は、Feed-Forward Network(FFN)とゼロ計算の専門家を統合した、汎用的で異種なMoEフレームワークである。 MoE++は、1.1-2.1xのエキスパートの前方スループットを同じサイズのバニラのMoEモデルと比較すると、パフォーマンスが向上する。
論文参考訳（メタデータ） (2024-10-09T18:01:27Z)
Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts Large Language Model (MoE-LLMs) のためのトレーニング不要なMixture-Compressorを提案する。我々のMCは静的量子化と動的プルーニングを統合し、より少ない精度でMoE-LLMの極端な圧縮を実現する。例えば、2.54ビットでは、MCは76.6%を圧縮し、平均精度損失は3.8%である。
論文参考訳（メタデータ） (2024-10-08T18:09:38Z)
AdapMoE: Adaptive Sensitivity-based Expert Gating and Management for Efficient MoE Inference [13.263938935671646]
AdapMoEは、効率的なMoE推論のためのアルゴリズムとシステムの共同設計フレームワークである。 AdapMoEは、オンデマンドのロードオーバーヘッドを減らすために、アダプティブなエキスパートゲーティングと管理機能を備えている。 AdapMoEは既存の技術より一貫して優れており、アクティベートされた専門家の平均数が25%減少し、精度を低下させることなく1.35倍のスピードアップを実現している。
論文参考訳（メタデータ） (2024-08-19T03:27:15Z)
Mixture of Nested Experts: Adaptive Processing of Visual Tokens [49.43920770789789]
Vision Transformer (ViT) ベースのモデルは、固有の冗長性に乗じず、より高い計算コストをもたらす。本報告では,Nested Experts (Mixture of Nested Experts, MONE) について述べる。我々は、イメージNet-21K、Kineetics400、Something-v2といった標準画像およびビデオデータセットに対するアプローチを検証する。
論文参考訳（メタデータ） (2024-07-29T13:19:31Z)
Merging Experts into One: Improving Computational Efficiency of Mixture of Experts [71.44422347502409]
スパースミキチャー・オブ・エキスパート(MoE)は、パラメータの小さなサブセットをアクティベートすることでコストを削減することができる。計算コストを大幅に高めることなく、より多くの専門家を追加するという利点を維持できるだろうか? そこで我々は,textbftexttMerging Experts into One (MEO) という計算効率のよい手法を提案する。
論文参考訳（メタデータ） (2023-10-15T13:28:42Z)
Sparse MoE as the New Dropout: Scaling Dense and Self-Slimmable Transformers [107.3726071306935]
そこで我々は,SMoE-Dropoutというプラグイン・アンド・プレイ・トレーニング・フレームワークを提案する。 SMoE-Dropoutはランダムで固定されたルータネットワークで構成され、エキスパートを活性化し、トレーニングが進むにつれて、アクティベートされたエキスパート数を徐々に増加させる。本実験では,SMoE-Dropout の高密度トレーニングベースラインと等価パラメータ数との比較により,SMoE-Dropout の優れた性能と計算精度を実証した。
論文参考訳（メタデータ） (2023-03-02T22:12:51Z)
MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。 MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文参考訳（メタデータ） (2022-07-19T06:09:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。