論文の概要: Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2508.18672v1
- Date: Tue, 26 Aug 2025 04:31:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.680924
- Title: Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks
- Title(参考訳): タスクの共振のためのMixture-of-Experts言語モデルの最適スペーサ性
- Authors: Taishi Nakamura, Satoki Ishikawa, Masaki Kawamura, Takumi Okamoto, Daisuke Nohara, Jun Suzuki, Rio Yokota,
- Abstract要約: 現在、Mixture-of-Experts (MoE)モデルは最先端システムでは標準となっている。
記憶と推論という2つの異なる能力体制にMoEがどのような影響を及ぼすかを検討する。
- 参考スコア(独自算出の注目度): 17.067788440109137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Empirical scaling laws have driven the evolution of large language models (LLMs), yet their coefficients shift whenever the model architecture or data pipeline changes. Mixture-of-Experts (MoE) models, now standard in state-of-the-art systems, introduce a new sparsity dimension that current dense-model frontiers overlook. We investigate how MoE sparsity influences two distinct capability regimes: memorization and reasoning. We train families of MoE Transformers that systematically vary total parameters, active parameters, and top-$k$ routing while holding the compute budget fixed. For every model we record pre-training loss, downstream task loss, and task accuracy, allowing us to separate the train-test generalization gap from the loss-accuracy gap. Memorization benchmarks improve monotonically with total parameters, mirroring training loss. By contrast, reasoning performance saturates and can even regress despite continued gains in both total parameters and training loss. Altering top-$k$ alone has little effect when active parameters are constant, and classic hyperparameters such as learning rate and initialization modulate the generalization gap in the same direction as sparsity. Neither post-training reinforcement learning (GRPO) nor extra test-time compute rescues the reasoning deficit of overly sparse models. Our model checkpoints, code and logs are open-source at https://github.com/rioyokotalab/optimal-sparsity.
- Abstract(参考訳): 経験的スケーリング法則は、大規模言語モデル(LLM)の進化を駆動しているが、モデルアーキテクチャやデータパイプラインが変化するたびにその係数は変化している。
現在最先端システムで標準となっているMixture-of-Experts (MoE)モデルは、現在の高密度モデルフロンティアが見落としている新しい空間次元を導入している。
記憶と推論という2つの異なる能力体制にMoEがどのような影響を及ぼすかを検討する。
計算予算の固定を保ちながら、全パラメータ、アクティブパラメータ、および上位$kのルーティングを体系的に変更するMoE変換器のファミリーを訓練する。
すべてのモデルに対して、トレーニング前損失、ダウンストリームタスク損失、タスク精度を記録し、列車-テストの一般化ギャップと損失-精度ギャップを分離できるようにします。
メモリ化ベンチマークは、総パラメータで単調に改善し、トレーニング損失をミラーリングする。
対照的に、推論性能は飽和し、総パラメータとトレーニング損失の両方が引き続き上昇しているにもかかわらず、後退する。
上位k$だけでは、アクティブパラメータが一定である場合にはほとんど効果がなく、学習率や初期化のような古典的なハイパーパラメータは、空間性と同じ方向の一般化ギャップを変調する。
訓練後の強化学習(GRPO)や、余分なテストタイム計算は、過度にスパースなモデルの理由の不足を救えない。
私たちのモデルチェックポイント、コード、ログはhttps://github.com/rioyokotalab/Optimal-sparsity.comでオープンソースです。
関連論文リスト
- It Takes a Good Model to Train a Good Model: Generalized Gaussian Priors for Optimized LLMs [15.263422862969803]
大規模言語モデルのトレーニング時間圧縮アルゴリズムであるBackSlashを導入する。
GGモデルに基づくLLM最適化のための統一エンドツーエンドフレームワークを提案する。
私たちの貢献は3倍です。
DeepShapeは、トレーニング後の正規化手法で、体重分布をGGプロファイルにマッチさせる。
RF8は、GG-distributed-priord BackSlashトレーニング用に設計された、コンパクトでハードウェア効率の良い8ビット浮動小数点演算フォーマットである。
論文 参考訳(メタデータ) (2025-05-31T09:49:17Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Sparse Model Soups: A Recipe for Improved Pruning via Model Averaging [24.64264715041198]
Sparse Model Soups (SMS) は,各プルー・リトレインサイクルを前フェーズから平均モデルに開始することでスパースモデルをマージする新しい手法である。
SMSはスパース性を保ち、スパースネットワークの利点を悪用し、モジュール化され、完全に並列化可能であり、IMPのパフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2023-06-29T08:49:41Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。