論文の概要: LoopMoE: Unifying Iterative Computation with Mixture-of-Experts for Language Modeling
- arxiv url: http://arxiv.org/abs/2606.04438v1
- Date: Wed, 03 Jun 2026 04:38:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.543327
- Title: LoopMoE: Unifying Iterative Computation with Mixture-of-Experts for Language Modeling
- Title(参考訳): LoopMoE: 言語モデリングのためのMixture-of-Expertsで反復計算を統合する
- Authors: Wenkai Chen, Tianshu Li, Wenyong Huang, Yichun Yin, Lifeng Shang, Chengwei Qin,
- Abstract要約: スパースルーティングと反復重み付き計算を統合したループ型MoE言語モデルであるLoopMoEを提案する。
設計により、Vanilla MoEに対してループ式MoEを厳格に制御し、ヘッド・ツー・ヘッドで評価することができる。
- 参考スコア(独自算出の注目度): 36.7482623230111
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Mixture-of-Experts (MoE) and looped architectures scale models along two orthogonal axes, namely parameter capacity and effective depth. However, mainstream looped architectures rely on dense backbones that couple parameter count with per-token FLOPs, which makes it impossible to isolate the effect of iterative computation under matched budgets. To this end, we present LoopMoE, a looped MoE language model that integrates sparse routing with iterative weight-shared computation through two designs. The first is IterAdaLN, which resolves weight-sharing symmetry via a modulation signal jointly conditioned on the iteration index and the per-token hidden state. The second is a capacity-balancing strategy that recovers the attention-to-FFN active parameter ratio of well-tuned non-looped references. Together, these designs enable the first strictly controlled, head-to-head evaluation of a looped MoE against a Vanilla MoE under identical total parameters, per-token FLOPs, and active sublayer ratios. At the 3B scale, LoopMoE outperforms the Vanilla MoE on 8 of 9 downstream benchmarks with an average improvement exceeding 1 point. At the 9B scale, LoopMoE continues to outperform the matched Vanilla MoE, indicating that the architectural gain persists at larger scale. Our work establishes a controlled synthesis of sparsity and recurrence, and suggests a promising direction for looped language models.
- Abstract(参考訳): MoE(Mixture-of-Experts)とループアーキテクチャは、パラメータキャパシティと効果的な深さという2つの直交軸に沿ってモデルをスケールする。
しかし、主流のループ型アーキテクチャは、パラメータカウントとトークン毎のFLOPを結合する密度の高いバックボーンに依存しているため、一致した予算の下で反復計算の効果を分離することは不可能である。
この目的のために,ループ型MoE言語モデルであるLoopMoEを提案する。
第1のIterAdaLNは、反復指数と1点当たりの隠れ状態に共同で条件付けられた変調信号を介して重量共有対称性を解く。
2つ目は、十分に調整された非ループ参照の注意対FFNのアクティブパラメータ比を回復するキャパシティバランス戦略である。
これらの設計により、ループ化されたMoEを、同一の総パラメータ、トーケン毎FLOP、アクティブサブ層比でバニラ MoEに対して、初めて厳密に制御し、ヘッド・ツー・ヘッドで評価することができる。
3Bスケールでは、LoopMoEは、平均的な改善が1ポイントを超える9つの下流ベンチマークのうち8つで、Vanilla MoEを上回っている。
9Bスケールでは、LoopMoEは一致したVanilla MoEよりも優れており、アーキテクチャ上の利益がより大きなスケールで持続していることを示している。
我々の研究は、疎度と繰り返しの制御された合成を確立し、ループ言語モデルにとって有望な方向性を示唆している。
関連論文リスト
- Towards Greater Leverage: Scaling Laws for Efficient Mixture-of-Experts Language Models [25.608085561102566]
本稿では,高密度等価量上でのMoEモデルの計算優位性を定量化する指標として,レバレッジ効率(EL)を紹介する。
ELは、予測可能な電力法に従って、専門家のアクティベーション比と総計算予算によって駆動される。
我々はこれらの発見を統合スケーリング法則に統合し、その構成に基づいてMoEアーキテクチャのELを正確に予測する。
論文 参考訳(メタデータ) (2025-07-23T17:10:23Z) - Comba: Improving Bilinear RNNs with Closed-loop Control [57.800320390698516]
本稿では,これらのモデルの利点と限界を包括的に分析したBilinear RNNの概念を紹介する。
我々は,状態フィードバックと出力フィードバックの両補正を併用した,スカラー+低ランク状態遷移を取り入れた新しいバイリニアRNNであるCombaを提案する。
また,大規模コーパス上での340M/1.3Bパラメータのトレーニングモデルと,ハードウェア効率のよいチャンクワイド並列カーネルを実装した。
論文 参考訳(メタデータ) (2025-06-03T05:44:50Z) - Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.69640966866059]
ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。
本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。
主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
論文 参考訳(メタデータ) (2025-05-07T15:46:36Z) - ResMoE: Space-efficient Compression of Mixture of Experts LLMs via Residual Restoration [61.579842548990754]
複数現象言語モデルのバックボーンであるMixture-of-Experts (MoE) Transformerは、各入力トークンに対して少数のモデルパラメータのみをアクティベートすることで、空間性を利用する。
ResMoEは、Wasserstein Barycenterを利用した革新的なMoE近似フレームワークで、共通の専門家(バリセンターエキスパート)を抽出し、このバリセンターエキスパートと元の専門家の間の残差を近似する。
論文 参考訳(メタデータ) (2025-03-10T03:15:54Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Mixture-of-Modules: Reinventing Transformers as Dynamic Assemblies of Modules [96.21649779507831]
そこで我々は,Mix-of-modules (MoM) と呼ばれる新しいアーキテクチャを提案する。
MoMは、任意の層がその位置に関係なくトークンを計算することができるという直感によって動機付けられている。
MoMはトランスフォーマーのための統一されたフレームワークを提供するだけでなく、冗長性を減らすための柔軟で学習可能なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-09T08:50:18Z) - QuantMoE-Bench: Examining Post-Training Quantization for Mixture-of-Experts [47.01697456105496]
Mixture-of-Experts (MoE)は、大規模言語モデルの学習能力をスケールアップする有望な方法である。
MoEは大きなパラメータサイズのためにメモリオーバーヘッドに悩まされる。
トレーニング後の量子化は、モデル圧縮に強力なアプローチを提供する。
論文 参考訳(メタデータ) (2024-06-12T12:44:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。