論文の概要: Expert Threshold Routing for Autoregressive Language Modeling with Dynamic Computation Allocation and Load Balancing
- arxiv url: http://arxiv.org/abs/2603.11535v1
- Date: Thu, 12 Mar 2026 04:45:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.870193
- Title: Expert Threshold Routing for Autoregressive Language Modeling with Dynamic Computation Allocation and Load Balancing
- Title(参考訳): 動的計算アロケーションとロードバランシングを用いた自動回帰言語モデリングのためのエキスパート閾値ルーティング
- Authors: Hanchi Sun, Yixin Liu, Yonghui Wu, Lichao Sun,
- Abstract要約: Mixture-of-Experts (TC-MoE) は各トークンを一定数の専門家にルーティングする。
本稿では,各専門家が指数移動平均(EMA)閾値を維持するETルーティングを提案する。
ETは、TC-MoEよりも0.067低いクロスエントロピー損失を達成し、1.6$times$より少ないトークンで同じパフォーマンスに達する。
- 参考スコア(独自算出の注目度): 25.25980014037624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Token-choice Mixture-of-Experts (TC-MoE) routes each token to a fixed number of experts, limiting dynamic computation allocation and requiring auxiliary losses to maintain load balance. We propose Expert Threshold (ET) routing, where each expert maintains an exponential moving average (EMA) threshold estimated from the global token distribution. At both training and inference, each token is independently routed to an expert if its score exceeds the expert's threshold, enabling dynamic computation allocation while achieving load balance without auxiliary losses. This fully causal mechanism eliminates dependence on other tokens in the batch, making it well-suited for autoregressive language modeling. In pretraining experiments scaling to 2.4B parameters on FineWeb-Edu, ET achieves 0.067 lower cross-entropy loss than TC-MoE, equivalent to reaching the same performance with 1.6$\times$ fewer tokens.
- Abstract(参考訳): Token-choice Mixture-of-Experts (TC-MoE) は各トークンを一定数の専門家にルーティングし、動的計算の割り当てを制限し、負荷バランスを維持するために補助的な損失を要求する。
本稿では,グローバルトークン分布から推定される指数移動平均(EMA)閾値を各専門家が保持するETルーティングを提案する。
トレーニングと推論の両方において、各トークンは、スコアがエキスパートのしきい値を超えた場合、専門家に独立してルーティングされる。
この完全な因果メカニズムはバッチ内の他のトークンへの依存を排除し、自動回帰言語モデリングに適している。
FineWeb-Edu上で2.4Bパラメータにスケールアップする事前トレーニング実験では、ETはTC-MoEよりも0.067低いクロスエントロピー損失を達成し、1.6$\times$より少ないトークンで同じパフォーマンスに達する。
関連論文リスト
- A Replicate-and-Quantize Strategy for Plug-and-Play Load Balancing of Sparse Mixture-of-Experts LLMs [64.8510381475827]
SMOE(Sparse Mixture-of-Experts)アーキテクチャは、大規模言語モデルを効率的にスケールするためにますます使われている。
SMoEモデルは専門家間で厳しい負荷不均衡に悩まされることが多く、専門家のごく一部がほとんどのトークンを受け取り、他のモデルは未利用である。
推定中のエキスパートルーティングの体系的解析を行い, (i) 負荷不均衡が持続し, バッチサイズが大きくなる, (ii) 選択頻度が, 専門家の重要度を確実に反映しない, (iii) 専門家の全体負荷と重要性を, キャリブレーションセットを用いて推定できる,という3つの知見を同定する。
論文 参考訳(メタデータ) (2026-02-23T15:11:16Z) - Least-Loaded Expert Parallelism: Load Balancing An Imbalanced Mixture-of-Experts [74.40169987564724]
エキスパート並列性(EP)は、複数のデバイスに専門家を分散させることで、MoEモデルをスケールするように設計されている。
極端な不均衡の下で、EPは少数の専門家に不均等な数のトークンを渡し、計算とメモリバウンドの障害を引き起こす。
本稿では,過剰なトークンと関連する専門家パラメータを過負荷デバイスから未利用デバイスへ動的に再帰する新しいEPアルゴリズムであるLast-Loaded Expert Parallelism (LLEP)を提案する。
論文 参考訳(メタデータ) (2026-01-23T18:19:15Z) - Improving MoE Compute Efficiency by Composing Weight and Data Sparsity [50.654297246411545]
Mixture-of-Experts 層は重量空間によって計算効率を向上する。
各専門家がトークンのサブセットだけを処理するようなデータスパシティは、補完的な軸を提供する。
論文 参考訳(メタデータ) (2026-01-21T18:53:58Z) - MC#: Mixture Compressor for Mixture-of-Experts Large Models [86.64315380917827]
Mixture-of-Experts (MoE)は、大きな言語モデル(LLM)と視覚言語モデル(VLM)をスパースアクティベーションによって拡張することで効果的にスケールする。
静的量子化と動的エキスパートプルーニングを組み合わせたフレームワークであるMC#(Mixture-Compressor-sharp)を提案する。
論文 参考訳(メタデータ) (2025-10-13T03:12:46Z) - AutoBalance: An Automatic Balancing Framework for Training Physics-Informed Neural Networks [10.223108587188808]
PINNは部分微分方程式を解くための強力で一般的なフレームワークを提供する。
PINNは、PDE残差や境界条件などの複数の損失項のバランスをとる。
既存の手法では、最適化前に勾配を操作することでこの問題に対処している。
本稿では,新しい"ポストコンビイン"トレーニングパラダイムであるAutoBalanceを紹介する。
論文 参考訳(メタデータ) (2025-10-08T06:13:03Z) - Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning [71.30276778807068]
サンプルプルーニングとトークンプルーニングを戦略的に協調する統合フレームワークを提案する。
Q-Tuningは、トレーニングデータの12.5%しか使用せず、全データSFTベースラインに対する平均38%の改善を実現している。
論文 参考訳(メタデータ) (2025-09-28T13:27:38Z) - DualSparse-MoE: Coordinating Tensor/Neuron-Level Sparsity with Expert Partition and Reconstruction [15.261077484922616]
Mixture of Experts (MoE) はLarge Language Models (LLM) の主流アーキテクチャとなった。
トレーニング済みMoEモジュールにおけるテンソルとニューロンの二重間隔を精度と効率の両立の鍵因子として同定した。
本稿では,動的テンソルレベル低下と静的ニューロンレベル再構成を統合する推論システムであるDualSparse-MoEを提案する。
論文 参考訳(メタデータ) (2025-08-25T18:08:32Z) - Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts Large Language Model (MoE-LLMs) のためのトレーニング不要なMixture-Compressorを提案する。
我々のMCは静的量子化と動的プルーニングを統合し、より少ない精度でMoE-LLMの極端な圧縮を実現する。
例えば、2.54ビットでは、MCは76.6%を圧縮し、平均精度損失は3.8%である。
論文 参考訳(メタデータ) (2024-10-08T18:09:38Z) - Expert-Token Resonance MoE: Bidirectional Routing with Efficiency Affinity-Driven Active Selection [19.365009652356793]
エキスパート-トークン共鳴(ETR)は、専門家-トークン相互作用を再想像する理論的な双方向ルーティング機構である。
ETRは、ベースラインのMoE実装と比較して、エンドツーエンドのトレーニング効率が5.4%-46.6%向上している。
論文 参考訳(メタデータ) (2024-05-24T02:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。