論文の概要: StableMoE: Stable Routing Strategy for Mixture of Experts
- arxiv url: http://arxiv.org/abs/2204.08396v1
- Date: Mon, 18 Apr 2022 16:48:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-19 13:26:19.353664
- Title: StableMoE: Stable Routing Strategy for Mixture of Experts
- Title(参考訳): StableMoE: エキスパートの混成のための安定したルーティング戦略
- Authors: Damai Dai, Li Dong, Shuming Ma, Bo Zheng, Zhifang Sui, Baobao Chang,
Furu Wei
- Abstract要約: Mixture-of-Experts (MoE)技術は、安価な計算オーバーヘッドでトランスフォーマーのモデルサイズをスケールアップすることができる。
本稿では、ルーティング変動問題に対処する2つのトレーニング段階を持つStableMoEを提案する。
その結果,StableMoEは収束速度と性能の両面で既存のMoE法よりも優れていた。
- 参考スコア(独自算出の注目度): 109.0602120199226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Mixture-of-Experts (MoE) technique can scale up the model size of
Transformers with an affordable computational overhead. We point out that
existing learning-to-route MoE methods suffer from the routing fluctuation
issue, i.e., the target expert of the same input may change along with
training, but only one expert will be activated for the input during inference.
The routing fluctuation tends to harm sample efficiency because the same input
updates different experts but only one is finally used. In this paper, we
propose StableMoE with two training stages to address the routing fluctuation
problem. In the first training stage, we learn a balanced and cohesive routing
strategy and distill it into a lightweight router decoupled from the backbone
model. In the second training stage, we utilize the distilled router to
determine the token-to-expert assignment and freeze it for a stable routing
strategy. We validate our method on language modeling and multilingual machine
translation. The results show that StableMoE outperforms existing MoE methods
in terms of both convergence speed and performance.
- Abstract(参考訳): Mixture-of-Experts (MoE)技術は、安価な計算オーバーヘッドでトランスフォーマーのモデルサイズをスケールアップすることができる。
既存の学習から経路へのMoE手法は、ルーティング変動問題、すなわち、同一入力のターゲットエキスパートがトレーニングに合わせて変化する可能性があるが、推論中に入力に対してアクティベートされる専門家は1人だけである。
ルーティングの変動は、同じ入力が専門家を更新するが、最終的に使用されるのは1つだけであるため、サンプル効率を損なう傾向にある。
本稿では、ルーティング変動問題に対処する2つのトレーニング段階を持つStableMoEを提案する。
第1の訓練段階では,バランスの取れた凝集性ルーティング戦略を学習し,バックボーンモデルから分離した軽量ルータに蒸留する。
第2のトレーニングステージでは、蒸留ルータを使用してトークン対エキスパート割り当てを決定し、安定したルーティング戦略のために凍結する。
言語モデルと多言語機械翻訳の手法を検証する。
その結果,StableMoEは収束速度と性能の両面で既存のMoE法よりも優れていた。
関連論文リスト
- ElastiFormer: Learned Redundancy Reduction in Transformer via Self-Distillation [0.6281017402518722]
ElastiFormerは、トレーニング済みのTransformerモデルを、可変推論時間計算と弾力性のあるものに適合させる。
ルーティングモジュールは、事前訓練されたモデルの出力と弾力性のあるモジュールとの差を最小限に抑えるために、自己蒸留損失を使用して訓練される。
論文 参考訳(メタデータ) (2024-11-22T16:11:14Z) - Router-Tuning: A Simple and Effective Approach for Enabling Dynamic-Depth in Transformers [40.40923861822689]
より重要でない層をスキップすることで計算深度を動的に調整するために,MoD(Mixture of Depths)を導入した。
約束にもかかわらず、現在のMoDアプローチは未探索のままであり、2つの大きな課題に直面している。
本稿では,小さなデータセット上でのみルータを微調整し,フルモデルトレーニングに伴う計算オーバーヘッドを大幅に削減するルータチューニングを提案する。
第2の課題として,動的深度でtextitAttention をデプロイする MindSkip を提案する。
論文 参考訳(メタデータ) (2024-10-17T03:23:50Z) - Layerwise Recurrent Router for Mixture-of-Experts [42.36093735411238]
Mixture-of-Experts (MoE)アーキテクチャは、トレーニングコストを大幅に増加させることなく、モデルサイズをスケールできる能力で際立っている。
現在のMoEモデルはパラメータ非効率をしばしば表示する。
我々はMixture-of-Experts(RMoE)のためのLayerwise Recurrent Routerを紹介する。
論文 参考訳(メタデータ) (2024-08-13T10:25:13Z) - MaskMoE: Boosting Token-Level Learning via Routing Mask in Mixture-of-Experts [38.15244333975921]
MaskMoEは、より包括的なトレーニングを行いながら、表現の多様性を維持することができる。
提案手法は,従来のMixture-of-Expertsモデルよりも,パープレキシティ(PPL)とダウンストリームタスク性能の両方で優れていた。
論文 参考訳(メタデータ) (2024-07-13T09:22:33Z) - Sparse Backpropagation for MoE Training [118.31785160874024]
バックプロパゲーションとスパースエキスパートルーティングのギャップを埋めるスケーラブルな勾配推定器であるSparseMixerを紹介する。
SparseMixerは数値的なODEフレームワークを基盤として、2階のODEソルバであるミドルポイント法を利用して正確な勾配近似を行う。
事前トレーニングと機械翻訳の両方にSparseMixerをSwitch Transformerに適用すると、SparseMixerのパフォーマンスは大幅に向上する。
論文 参考訳(メタデータ) (2023-10-01T22:43:57Z) - Patch-level Routing in Mixture-of-Experts is Provably Sample-efficient
for Convolutional Neural Networks [74.68583356645276]
ディープラーニングでは、Mixix-of-experts(MoE)が、サンプル単位またはトーケン単位で専門家(サブネットワーク)を活性化する。
我々は,pMoEが適切な一般化を実現するために,必要なトレーニングサンプル数を確実に削減できることを初めて示す。
論文 参考訳(メタデータ) (2023-06-07T00:16:10Z) - SMILE: Scaling Mixture-of-Experts with Efficient Bi-level Routing [47.11171833082974]
我々は、異種ネットワーク帯域を利用するSMILEを導入し、シングルステップのルーティングをバイレベルルーティングに分割する。
提案手法は, コンバージェンス速度を損なうことなく, コロッサルクリーンクローリングコーパスのプリトレーニングスループットにおいて, スイッチ変換器の2.5倍の高速化が得られることを示す。
論文 参考訳(メタデータ) (2022-12-10T03:44:16Z) - Taming Sparsely Activated Transformer with Stochastic Experts [76.0711573018493]
わずかに活性化されたモデル(SAM)は、計算コストを大幅に増加させることなく、非常に大量のパラメータを持つように容易にスケールすることができる。
本稿では,新しいエキスパートベースモデルTHOR(Transformer witH StOchastic ExpeRts)を提案する。
Switch Transformerのような古典的なエキスパートベースのモデルとは異なり、THORの専門家はトレーニングと推論の間、各入力に対してランダムにアクティベートされる。
論文 参考訳(メタデータ) (2021-10-08T17:15:47Z) - Hash Layers For Large Sparse Models [48.90784451703753]
フィードフォワード層を現在のトークンによって異なる重みのセットにハッシュし、シーケンス内のすべてのトークンに対して変更する。
本手法は, 学習と学習の混合手法に比較して, 性能が優れているか, あるいは競争的であるかを示す。
論文 参考訳(メタデータ) (2021-06-08T14:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。