論文の概要: Mixture-of-Transformers Learn Faster: A Theoretical Study on Classification Problems
- arxiv url: http://arxiv.org/abs/2510.27004v1
- Date: Thu, 30 Oct 2025 21:07:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 19:57:09.735785
- Title: Mixture-of-Transformers Learn Faster: A Theoretical Study on Classification Problems
- Title(参考訳): 変換器の混合はより速く学習する:分類問題に関する理論的研究
- Authors: Hongbo Li, Qinhang Wu, Sen Lin, Yingbin Liang, Ness B. Shroff,
- Abstract要約: 本研究では,各変圧器ブロックが連続的に訓練されたゲーティングネットワークによって制御される専門家として機能する,トラクタブルな理論的枠組みについて検討する。
専門家の専門化は、勾配の衝突を減らし、各サブタスクを強く凸させることを示す。
トレーニングによって予測損失が$O(log(epsilon-1)$のステップでゼロに近づき、単一変圧器の$O(epsilon-1)$のレートよりも大幅に向上することが証明された。
- 参考スコア(独自算出の注目度): 59.94955550958074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) models improve transformer efficiency but lack a unified theoretical explanation, especially when both feed-forward and attention layers are allowed to specialize. To this end, we study the Mixture-of-Transformers (MoT), a tractable theoretical framework in which each transformer block acts as an expert governed by a continuously trained gating network. This design allows us to isolate and study the core learning dynamics of expert specialization and attention alignment. In particular, we develop a three-stage training algorithm with continuous training of the gating network, and show that each transformer expert specializes in a distinct class of tasks and that the gating network accurately routes data samples to the correct expert. Our analysis shows how expert specialization reduces gradient conflicts and makes each subtask strongly convex. We prove that the training drives the expected prediction loss to near zero in $O(\log(\epsilon^{-1}))$ iteration steps, significantly improving over the $O(\epsilon^{-1})$ rate for a single transformer. We further validate our theoretical findings through extensive real-data experiments, demonstrating the practical effectiveness of MoT. Together, these results offer the first unified theoretical account of transformer-level specialization and learning dynamics, providing practical guidance for designing efficient large-scale models.
- Abstract(参考訳): Mixture-of-Experts (MoE) モデルはトランスフォーマー効率を改善するが、特にフィードフォワード層とアテンション層の両方が特殊化が許されている場合、統一的な理論的説明がない。
この目的のために,各変圧器ブロックが連続的に訓練されたゲーティングネットワークによって制御される専門家として機能する,トラクタブルな理論フレームワークであるMixture-of-Transformers (MoT) について検討する。
この設計により、専門家の専門化とアテンションアライメントのコアラーニングダイナミクスを分離し、研究することができる。
特に、ゲーティングネットワークの連続的なトレーニングを施した3段階学習アルゴリズムを開発し、各トランスフォーマーの専門家が異なるタスクのクラスを専門とし、ゲーティングネットワークがデータサンプルを正しい専門家に正確にルーティングすることを示す。
我々の分析は、専門家の専門化が勾配の衝突を減らし、各サブタスクを強く凸させる方法を示している。
トレーニングによって予想される予測損失が$O(\log(\epsilon^{-1})$繰り返しステップでゼロに近づき、単一変圧器の$O(\epsilon^{-1})$レートよりも大幅に改善されることを証明した。
我々は、MoTの実用的効果を実証し、より広範な実データ実験を通して理論的な知見を検証した。
これらの結果は、変換器レベルの特殊化と学習のダイナミクスに関する最初の統一的な理論的な説明を提供し、効率的な大規模モデルを設計するための実践的なガイダンスを提供する。
関連論文リスト
- Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527835]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。
CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文 参考訳(メタデータ) (2024-10-03T03:12:51Z) - Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。
本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。
トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文 参考訳(メタデータ) (2024-09-25T20:22:06Z) - Exploiting Activation Sparsity with Dense to Dynamic-k Mixture-of-Experts Conversion [4.716845031095804]
トランスフォーマーモデルは、高い計算要求のため、実用的な制限に直面する可能性がある。
このようなモデルは、ネットワークの一部を等価なMixture-of-Experts (MoE)層に変換することで、推論コストを削減するために利用することができる。
本研究では,基本モデルの活性化間隔を適切に正規化することにより,変換効率を大幅に向上できることを実証する。
論文 参考訳(メタデータ) (2023-10-06T16:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。