論文の概要: Maximum Score Routing For Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2508.12801v1
- Date: Mon, 18 Aug 2025 10:25:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.24248
- Title: Maximum Score Routing For Mixture-of-Experts
- Title(参考訳): Mixture-of-Experts のための最大スコアルーティング
- Authors: Bowen Dong, Yilong Fan, Yutao Sun, Zhenyu Li, Tengyu Pan, Xun Zhou, Jianyong Wang,
- Abstract要約: MaxScoreは、最小コストの最大フロー問題としてルーティングをモデル化し、SoftTopk演算子を統合する、新しいMoEルーティングパラダイムである。
MaxScoreは、制約付きベースラインと制約なしベースラインの両方と比較して、トレーニング損失の低減と同等のFLOPでの評価スコアの向上を実現している。
- 参考スコア(独自算出の注目度): 22.063226685681034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Routing networks in sparsely activated mixture-of-experts (MoE) dynamically allocate input tokens to top-k experts through differentiable sparse transformations, enabling scalable model capacity while preserving computational efficiency. Traditional MoE networks impose an expert capacity constraint to ensure GPU-friendly computation. However, this leads to token dropping when capacity is saturated and results in low hardware efficiency due to padding in underutilized experts. Removing the capacity constraint, in turn, compromises load balancing and computational efficiency. To address these issues, we propose Maximum Score Routing ($\mathbf{MaxScore}$), a novel MoE routing paradigm that models routing as a minimum-cost maximum-flow problem and integrates a SoftTopk operator. MaxScore resolves the fundamental limitations of iterative rerouting and optimal transport formulations, achieving lower training losses and higher evaluation scores at equivalent FLOPs compared to both constrained and unconstrained baselines. Implementation details and experimental configurations can be obtained from $\href{https://github.com/dongbw18/MaxScore.git}{MaxScore}$.
- Abstract(参考訳): 疎活性化されたMix-of-Experts(MoE)内のルーティングネットワークは、分散スパース変換により、トップkの専門家に動的に入力トークンを割り当て、計算効率を保ちながらスケーラブルなモデルキャパシティを実現する。
従来のMoEネットワークは、GPUフレンドリな計算を保証するために、専門的な容量制限を課している。
しかし、これはキャパシティが飽和し、未使用の専門家のパディングによるハードウェア効率の低下につながる。
容量制約を取り除くことは、負荷分散と計算効率を損なう。
これらの問題に対処するため、我々は最小コストの最大フロー問題としてルーティングをモデル化し、SoftTopk演算子を統合する新しいMoEルーティングパラダイムであるMaximum Score Routing(\mathbf{MaxScore}$)を提案する。
MaxScoreは、反復的なリルーチンと最適輸送の定式化の基本的な制限を解決し、制約付きベースラインと制約なしベースラインの両方と比較して、トレーニング損失の低減と同等のFLOPでのより高い評価スコアを達成する。
実装の詳細と実験的設定は、$\href{https://github.com/dongbw18/MaxScore.git}{MaxScore}$から取得できる。
関連論文リスト
- Cutting Slack: Quantum Optimization with Slack-Free Methods for Combinatorial Benchmarks [4.266376725904727]
制約処理は、量子最適化における重要なボトルネックである。
量子シミュレータやハードウェア上での制約問題を解くために,ラグランジアンに基づく一連の最適化手法について検討する。
この結果は,QUBOのペナライゼーションに代わるスケーラブルな代替手段として,ラグランジアン定式化の柔軟性を強調した。
論文 参考訳(メタデータ) (2025-07-16T11:39:47Z) - QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge [55.75103034526652]
ASIC のハードウェアアクセラレーションによる MDE モデルの定量化を後学習量子化に応用した QuartDepth を提案する。
提案手法では,重みとアクティベーションの両方を4ビット精度で定量化し,モデルサイズと計算コストを削減する。
我々は、カーネル融合とカスタマイズされた命令プログラム性をサポートすることにより、フレキシブルでプログラム可能なハードウェアアクセラレータを設計する。
論文 参考訳(メタデータ) (2025-03-20T21:03:10Z) - Accelerating MoE Model Inference with Expert Sharding [1.4733737463429546]
専門家の混合モデル(MoE)は、言語モデリングにおいて最先端の結果を得るが、不均衡なトークンルーティングと通信オーバーヘッドにより、非効率なハードウェア利用に悩まされる。
我々は,MoEエキスパートのテンソルシャーディングを通じて,完全な負荷分散を実現する推論システムであるMoEShardを紹介する。
論文 参考訳(メタデータ) (2025-03-11T14:15:01Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - MoETuner: Optimized Mixture of Expert Serving with Balanced Expert Placement and Token Routing [0.6445605125467574]
Mixture-of-Experts (MoE)モデルアーキテクチャは、トランスフォーマーモデルを効率的にスケーリングするための有望なソリューションとして登場した。
MoEモデルはGPUデバイスに分散する必要があるため、重要なパフォーマンスボトルネックに直面している。
本稿では,トークンルーティングコストとデバイス間のトークン処理バランスを最小化する,最適専門家対GPU割り当てを提案する。
論文 参考訳(メタデータ) (2025-02-10T16:34:36Z) - Sparse Backpropagation for MoE Training [118.31785160874024]
バックプロパゲーションとスパースエキスパートルーティングのギャップを埋めるスケーラブルな勾配推定器であるSparseMixerを紹介する。
SparseMixerは数値的なODEフレームワークを基盤として、2階のODEソルバであるミドルポイント法を利用して正確な勾配近似を行う。
事前トレーニングと機械翻訳の両方にSparseMixerをSwitch Transformerに適用すると、SparseMixerのパフォーマンスは大幅に向上する。
論文 参考訳(メタデータ) (2023-10-01T22:43:57Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - Taming GANs with Lookahead-Minmax [63.90038365274479]
MNIST, SVHN, CIFAR-10, ImageNetによる実験結果から, Lookahead-minmaxとAdam, Exgradientの併用が明らかとなった。
30倍のパラメータと16倍のミニバッチを使用して、クラスラベルを使わずに12.19のFIDを得ることにより、CIFAR-10上でクラス依存のBigGANのパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2020-06-25T17:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。