論文の概要: Grouter: Decoupling Routing from Representation for Accelerated MoE Training
- arxiv url: http://arxiv.org/abs/2603.06626v1
- Date: Sun, 22 Feb 2026 06:09:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.451787
- Title: Grouter: Decoupling Routing from Representation for Accelerated MoE Training
- Title(参考訳): Grouter: MoEの加速トレーニングのための表現からルーティングを分離する
- Authors: Yuqi Xu, Rizhen Hu, Zihan Liu, Mou Sun, Kun Yuan,
- Abstract要約: Grouterは、完全に訓練されたMoEモデルから高品質な構造を蒸留し、ターゲットモデルの固定ルータとして機能するプリエンプティブルーティング手法である。
実験により、Grouterはより優れたパフォーマンスと効率を実現し、事前トレーニングデータの利用を4.28倍にし、最大で33.5%のスループット加速を実現している。
- 参考スコア(独自算出の注目度): 10.767613437794537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional Mixture-of-Experts (MoE) training typically proceeds without any structural priors, effectively requiring the model to simultaneously train expert weights while searching for an optimal routing policy within a vast combinatorial space. This entanglement often leads to sluggish convergence and training instabilities. This paper introduces Grouter, a preemptive routing method that by distilling high-quality structures from fully-trained MoE models and serving as a fixed router for target models. By decoupling structural optimization from weight updates, Grouter significantly accelerates both the speed and quality of model convergence. To ensure the framework's versatility, we also introduce expert folding to adapt Grouter across varying model configurations and expert tuning to rebalance workloads across different data distributions. Furthermore, by leveraging the structural priors provided by preemptive routing, we can implement targeted optimizations to further enhance training throughput. Experiments demonstrate that Grouter achieves superior performance and efficiency which boosts pre-training data utilization by 4.28x and achieves up to 33.5% throughput acceleration, establishing preemptive routing as a fundamental paradigm for scalable MoE training.
- Abstract(参考訳): 従来のMixture-of-Experts (MoE) トレーニングは通常、構造的な前提なしに進行し、大規模な組合せ空間内で最適なルーティングポリシーを探索しながら、専門家の重量を同時に訓練する必要がある。
この絡み合いは、しばしばゆるやかな収束と訓練の不安定をもたらす。
本稿では,十分に訓練されたMoEモデルから高品質な構造を蒸留し,ターゲットモデルの固定ルータとして機能するプリエンプティブルーティング手法であるGrouterを紹介する。
構造最適化を重み更新から切り離すことで、Grouterはモデル収束の速度と品質の両方を著しく加速する。
また、フレームワークの汎用性を確保するために、さまざまなモデル構成にまたがってGrouterを適用する専門家の折り畳みや、さまざまなデータ分散にまたがるワークロードのバランスを調整する専門家のチューニングも導入しています。
さらに、プリエンプティブルーティングによって提供される構造的事前情報を活用することで、トレーニングスループットをさらに向上するために、ターゲット最適化を実装することができる。
実験により、Grouterは、事前トレーニングデータの利用を4.28倍に向上し、最大33.5%のスループット加速を実現し、スケーラブルなMoEトレーニングの基本的なパラダイムとしてプリエンプティブルーティングを確立した。
関連論文リスト
- MeanFlow Transformers with Representation Autoencoders [71.45823902973349]
MeanFlow(MF)は、ノイズからデータへのジャンプを直接学習することで、効率的な数ステップ生成を可能にする拡散動機付き生成モデルである。
我々は、表現オートエンコーダ(RAE)の潜在空間におけるMFの効率的なトレーニングとサンプリング手法を開発する。
1ステップのFIDが2.03であり,バニラMFの3.43を上回っ,GFLOPSのサンプリングを38%削減し,ImageNet 256のトレーニングコストを83%削減した。
論文 参考訳(メタデータ) (2025-11-17T06:17:08Z) - Towards Stable and Effective Reinforcement Learning for Mixture-of-Experts [113.0656076371565]
オフ・ポリティクス強化学習(RL)における重要サンプリング重み付けを最適化する新しいルータ認識手法を提案する。
具体的には、ルータロジットによって誘導される再スケーリング戦略を設計し、勾配のばらつきを効果的に低減し、トレーニングのばらつきを軽減する。
実験により, 本手法は収束安定性とMoEモデルの最終的な性能の両方を著しく改善することが示された。
論文 参考訳(メタデータ) (2025-10-27T05:47:48Z) - Transformer-based Scalable Beamforming Optimization via Deep Residual Learning [12.79709425087431]
大規模MU-MISOチャネルにおけるダウンリンクビームフォーミングのための教師なしディープラーニングフレームワーク。
モデルはオフラインでトレーニングされ、動的通信環境における軽量フィードフォワード計算によるリアルタイム推論を可能にする。
論文 参考訳(メタデータ) (2025-10-15T01:43:51Z) - MosaicDiff: Training-free Structural Pruning for Diffusion Model Acceleration Reflecting Pretraining Dynamics [34.69318408652807]
我々は,拡散事前学習力学と後学習サンプリング加速度を一致させるMosaicDiffという新しいフレームワークを導入する。
提案手法は, 出力品質を損なうことなく, サンプリングにおける大幅な高速化を実現する。
論文 参考訳(メタデータ) (2025-10-13T21:51:04Z) - Predictive Scaling Laws for Efficient GRPO Training of Large Reasoning Models [0.41942958779358663]
本稿では,動的トレーニングをモデル化し,資源利用の最適化を支援する予測フレームワークを提案する。
モデルサイズ,初期性能,トレーニング進捗に基づく経験的スケーリング法則を導出する。
特定のエポック数を超えるトレーニングでは、ほとんど利益が得られず、早い段階で停止することで、パフォーマンスを犠牲にすることなく計算を大幅に削減できることが示唆されている。
論文 参考訳(メタデータ) (2025-07-24T01:09:25Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - A Multi-Level Framework for Accelerating Training Transformer Models [5.268960238774481]
大規模ディープラーニングモデルの訓練は、コンピューティングパワーに対する前例のない需要をもたらしている。
本稿では,Coalescing, De-Coalescing, Interpolation に基づく,加速度のトレーニングのためのマルチレベルフレームワークを提案する。
提案手法は,BERT/GPT-Baseモデルのトレーニングにおいて約20%,BERT-Largeモデルのトレーニングにおいて最大51.6%のコスト削減を実現する。
論文 参考訳(メタデータ) (2024-04-07T03:04:34Z) - Efficient Stagewise Pretraining via Progressive Subnetworks [53.00045381931778]
一般的な見方では、レイヤのドロップのような段階的なドロップ戦略は、スタック方式のアプローチと比べて効果がない。
本稿では, 適切な設計で, 戦略の廃止は, 積み重ね手法よりも競争力があることを示すことによって, この概念に挑戦する。
本稿では,各ステップでランダムサブネットワークのみを選択し,訓練し,段階的に拡大するランダムパートトレーニング(RAPTR)を提案する。
論文 参考訳(メタデータ) (2024-02-08T18:49:09Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - Once-for-All Adversarial Training: In-Situ Tradeoff between Robustness
and Accuracy for Free [115.81899803240758]
敵の訓練とその多くの変種は、ネットワークの堅牢性を大幅に改善するが、標準精度を妥協するコストがかかる。
本稿では,訓練されたモデルをその場で迅速に校正する方法を問うとともに,その標準と堅牢な精度のトレードオフについて検討する。
提案するフレームワークであるOne-for-all Adversarial Training (OAT)は,革新的なモデル条件トレーニングフレームワーク上に構築されている。
論文 参考訳(メタデータ) (2020-10-22T16:06:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。