論文の概要: Continual Pre-training of MoEs: How robust is your router?
- arxiv url: http://arxiv.org/abs/2503.05029v1
- Date: Thu, 06 Mar 2025 22:55:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:25:15.033348
- Title: Continual Pre-training of MoEs: How robust is your router?
- Title(参考訳): MoEsの継続的な事前トレーニング:ルータはどの程度堅牢か?
- Authors: Benjamin Thérien, Charles-Étienne Joseph, Zain Sarwar, Ashwinee Panda, Anirban Das, Shi-Xiong Zhang, Stephen Rawls, Sambit Sahu, Eugene Belilovsky, Irina Rish,
- Abstract要約: MoEは、トレーニング時のサンプル効率の改善と、より強力なパフォーマンスの恩恵を受ける。
多くのクローズドソースおよびオープンソースフロンティア言語モデルは、MoEアーキテクチャを採用している。
CPTにおいて, MoE LLMはサンプル効率(FLOP整合密度モデルと比較して)を維持し, 完全に再学習した MoE の性能を, コストのごく一部で一致させることができることを示した。
- 参考スコア(独自算出の注目度): 25.438359533860954
- License:
- Abstract: Sparsely-activated Mixture of Experts (MoE) transformers are promising architectures for foundation models. Compared to dense transformers that require the same amount of floating point operations (FLOPs) per forward pass, MoEs benefit from improved sample efficiency at training time and achieve much stronger performance. Many closed-source and open-source frontier language models have thus adopted an MoE architecture. Naturally, practitioners will want to extend the capabilities of these models with large amounts of newly collected data without completely re-training them. Prior work has shown that a simple combination of replay and learning rate re-warming and re-decaying can enable the continual pre-training (CPT) of dense decoder-only transformers with minimal performance degradation compared to full re-training. In the case of decoder-only MoE transformers, however, it is unclear how the routing algorithm will impact continual pre-training performance: 1) do the MoE transformer's routers exacerbate forgetting relative to a dense model?; 2) do the routers maintain a balanced load on previous distributions after CPT?; 3) are the same strategies applied to dense models sufficient to continually pre-train MoE LLMs? In what follows, we conduct a large-scale (>2B parameter switch and DeepSeek MoE LLMs trained for 600B tokens) empirical study across four MoE transformers to answer these questions. Our results establish a surprising robustness to distribution shifts for both Sinkhorn-Balanced and Z-and-Aux-loss-balanced routing algorithms, even in MoEs continually pre-trained without replay. Moreover, we show that MoE LLMs maintain their sample efficiency (relative to a FLOP-matched dense model) during CPT and that they can match the performance of a fully re-trained MoE at a fraction of the cost.
- Abstract(参考訳): わずかに活性化されたMixture of Experts (MoE) トランスフォーマーは、基礎モデルのための有望なアーキテクチャである。
フォワードパス毎に同じ量の浮動小数点演算(FLOP)を必要とする高密度変圧器と比較して、MoEsはトレーニング時のサンプル効率の改善とより強力な性能の恩恵を受ける。
多くのクローズドソースおよびオープンソースフロンティア言語モデルがMoEアーキテクチャを採用した。
当然のことながら、実践者はこれらのモデルの能力を、完全に再トレーニングすることなく、大量の新たに収集されたデータで拡張したいだろう。
従来の研究によると、リプレイと学習率の単純な組み合わせにより、高密度デコーダのみの変圧器の連続事前学習(CPT)が可能であり、フルリトレーニングに比べてパフォーマンスの低下が最小限である。
しかし、デコーダのみのMoEトランスの場合、ルーティングアルゴリズムが継続事前学習性能にどう影響するかは不明だ。
1) MoE変換器のルータは高密度モデルと比較して忘れを悪化させるか?
;
2) ルータはCPT後, 以前の分布のバランスのとれた負荷を維持できるか?
;
3) MoE LLM の継続事前訓練に十分な高密度モデルに適用できるのか?
以下に示すのは、600Bトークンで訓練されたDeepSeek MoE LLMを4つのMoE変換器で大規模(>2BパラメータスイッチとDeepSeek MoE LLM)な実験を行い、これらの質問に答える。
Sinkhorn-Balanced と Z- and-Aux-loss- Balanced の2つのルーティングアルゴリズムに対する分布シフトに対する驚くべきロバスト性を確立した。
さらに, CPT において, MoE LLM はサンプル効率(FLOP マッチングされた高密度モデルと比較して)を維持し, 完全に再学習した MoE の性能をコストのごく一部で一致させることができることを示した。
関連論文リスト
- p-MoD: Building Mixture-of-Depths MLLMs via Progressive Ratio Decay [18.958138693220704]
そこで我々は,Mixture-of-Depths (MoD) 機構を利用して,効率的なマルチモーダル大言語モデル(MLLM)を構築することを提案する。
我々は、Tanh-gateweight normalization (TanhNorm) と symmetric token reweighting (STRing) の2つの新しい設計でMoDモジュールを適応する。
我々のモデルであるp-MoDは、ベースラインモデルの性能にマッチまたは超え、推論時に55.6%のTFLOPと53.8%のKVキャッシュストレージ、トレーニング時に77.7%のGPU時間しか持たない。
論文 参考訳(メタデータ) (2024-12-05T18:58:03Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - Mixed Sparsity Training: Achieving 4$\times$ FLOP Reduction for Transformer Pretraining [32.925150708409205]
混合空間訓練(Mixed Sparsity Training、MST)は、性能を維持しながら、約75%の浮動小数点演算(FLOP)を削減できる効率的な事前訓練法である。
GPT-2の実験では、FLOPの4倍の4倍の値が、性能を損なうことなく得られることを示した。
論文 参考訳(メタデータ) (2024-08-21T16:13:16Z) - LaDiMo: Layer-wise Distillation Inspired MoEfier [1.6199400106794555]
本稿では,Transformerベースの非MoEモデルを最小限のトレーニングコストでMoEモデルに変換する新しいアルゴリズムLaDiMoを提案する。
100Kトークンのみを用いてLLaMA2-7BモデルをMoEモデルに変換することにより,本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-08-08T07:37:26Z) - FBI-LLM: Scaling Up Fully Binarized LLMs from Scratch via Autoregressive Distillation [32.01836613286288]
この研究は、完全なビナライズされた大規模言語モデル(FBI-LLM)を提示する。
大規模なバイナリ言語モデルをスクラッチからトレーニングする方法を初めて示すものだ。
論文 参考訳(メタデータ) (2024-07-09T17:59:48Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - Approximating Two-Layer Feedforward Networks for Efficient Transformers [15.793406740545024]
製品キーメモリ(PKM)を含む2層NNを近似する様々な手法を統合する汎用フレームワークを提案する。
WikiText-103とenwiki8の両方のデータセットで2つの異なるスケールで、当社のMoEがTransformer-XLと競合していることが示されています。
このことは、MoE が極めて大きな LM だけでなく、資源効率の高い LM にも関係していることを示している。
論文 参考訳(メタデータ) (2023-10-16T21:23:16Z) - Residual Mixture of Experts [75.5489156421442]
Residual Mixture of Experts (RMoE)は、下流タスクにおけるMoEビジョントランスフォーマーの効率的なトレーニングパイプラインである。
RMoEは上向きのMoEトレーニングで同等の結果を得るが、追加のトレーニングコストはわずかである。
論文 参考訳(メタデータ) (2022-04-20T17:29:48Z) - StableMoE: Stable Routing Strategy for Mixture of Experts [109.0602120199226]
Mixture-of-Experts (MoE)技術は、安価な計算オーバーヘッドでトランスフォーマーのモデルサイズをスケールアップすることができる。
本稿では、ルーティング変動問題に対処する2つのトレーニング段階を持つStableMoEを提案する。
その結果,StableMoEは収束速度と性能の両面で既存のMoE法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-18T16:48:19Z) - Taming Sparsely Activated Transformer with Stochastic Experts [76.0711573018493]
わずかに活性化されたモデル(SAM)は、計算コストを大幅に増加させることなく、非常に大量のパラメータを持つように容易にスケールすることができる。
本稿では,新しいエキスパートベースモデルTHOR(Transformer witH StOchastic ExpeRts)を提案する。
Switch Transformerのような古典的なエキスパートベースのモデルとは異なり、THORの専門家はトレーニングと推論の間、各入力に対してランダムにアクティベートされる。
論文 参考訳(メタデータ) (2021-10-08T17:15:47Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。