論文の概要: Dense Backpropagation Improves Training for Sparse Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2504.12463v1
- Date: Wed, 16 Apr 2025 19:55:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:38:28.565606
- Title: Dense Backpropagation Improves Training for Sparse Mixture-of-Experts
- Title(参考訳): Dense Backpropagationはスパース・ミックス・オブ・エクスプロイトのトレーニングを改善する
- Authors: Ashwinee Panda, Vatsal Baherwani, Zain Sarwar, Benjamin Therien, Supriyo Chakraborty, Tom Goldstein,
- Abstract要約: そこで本研究では,MoEルータのパラメータを緩やかに活性化しながら,高密度勾配更新を行う軽量近似法を提案する。
私たちのデフォルトのMoEは、計算オーバーヘッドをかなり必要とせずに、様々な設定で標準のTopKルーティングより優れています。
- 参考スコア(独自算出の注目度): 41.08173926456885
- License:
- Abstract: Mixture of Experts (MoE) pretraining is more scalable than dense Transformer pretraining, because MoEs learn to route inputs to a sparse set of their feedforward parameters. However, this means that MoEs only receive a sparse backward update, leading to training instability and suboptimal performance. We present a lightweight approximation method that gives the MoE router a dense gradient update while continuing to sparsely activate its parameters. Our method, which we refer to as Default MoE, substitutes missing expert activations with default outputs consisting of an exponential moving average of expert outputs previously seen over the course of training. This allows the router to receive signals from every expert for each token, leading to significant improvements in training performance. Our Default MoE outperforms standard TopK routing in a variety of settings without requiring significant computational overhead. Code: https://github.com/vatsal0/default-moe.
- Abstract(参考訳): 入力をフィードフォワードパラメータのスパースセットにルーティングすることを学ぶため、Mixture of Experts (MoE)プレトレーニングは、高密度トランスフォーマープレトレーニングよりもスケーラブルである。
しかし、これはMoEsが緩やかな後方更新しか受け取らず、トレーニングの不安定性と準最適パフォーマンスをもたらすことを意味する。
そこで本研究では,MoEルータのパラメータを緩やかに活性化しながら,高密度勾配更新を行う軽量近似法を提案する。
提案手法は,未使用のエキスパートアクティベーションを,トレーニング期間中にこれまで見られた専門家アウトプットの指数的な移動平均値からなるデフォルト出力に置き換える。
これにより、ルータはトークンごとに専門家から信号を受け取ることができ、トレーニングパフォーマンスが大幅に向上する。
私たちのデフォルトのMoEは、計算オーバーヘッドをかなり必要とせずに、様々な設定で標準のTopKルーティングより優れています。
コード:https://github.com/vatsal0/default-moe。
関連論文リスト
- ReMoE: Fully Differentiable Mixture-of-Experts with ReLU Routing [28.73697327316267]
計算予算を増大させることなく、モデルキャパシティをスケールアップするために、緩やかに活性化されたMixture-of-Experts (MoE)モデルが広く採用されている。
我々は,従来のTopK+Softmaxルーティングの簡易かつ効果的なドロップイン置換を提供する,完全に微分可能なMoEアーキテクチャであるReMoEを提案する。
ReMoEは、さまざまなモデルサイズ、専門家数、粒度のレベルにおいて、バニラTopKのMoEを一貫して上回る。
論文 参考訳(メタデータ) (2024-12-19T10:21:20Z) - Stepping Forward on the Last Mile [8.756033984943178]
本稿では,バックプロパゲーションと比較してメモリフットプリントと精度のギャップを低減させるアルゴリズムの一連の拡張を提案する。
その結果、エッジデバイス上でのモデルカスタマイズの最後のマイルでは、固定点前方勾配によるトレーニングが実現可能で実践的なアプローチであることが示されている。
論文 参考訳(メタデータ) (2024-11-06T16:33:21Z) - Exploring the Benefit of Activation Sparsity in Pre-training [117.25661020250658]
プレトレーニング中に活性化特性がどう変化するかを検討した。
本稿では,Sparse-Dense Learning (SSD)を提案する。
SSDは同じモデルサイズで同等のパフォーマンスを実現し、事前トレーニングコストを削減する。
論文 参考訳(メタデータ) (2024-10-04T13:53:33Z) - Sparse Backpropagation for MoE Training [118.31785160874024]
バックプロパゲーションとスパースエキスパートルーティングのギャップを埋めるスケーラブルな勾配推定器であるSparseMixerを紹介する。
SparseMixerは数値的なODEフレームワークを基盤として、2階のODEソルバであるミドルポイント法を利用して正確な勾配近似を行う。
事前トレーニングと機械翻訳の両方にSparseMixerをSwitch Transformerに適用すると、SparseMixerのパフォーマンスは大幅に向上する。
論文 参考訳(メタデータ) (2023-10-01T22:43:57Z) - Sparse MoE as the New Dropout: Scaling Dense and Self-Slimmable
Transformers [107.3726071306935]
そこで我々は,SMoE-Dropoutというプラグイン・アンド・プレイ・トレーニング・フレームワークを提案する。
SMoE-Dropoutはランダムで固定されたルータネットワークで構成され、エキスパートを活性化し、トレーニングが進むにつれて、アクティベートされたエキスパート数を徐々に増加させる。
本実験では,SMoE-Dropout の高密度トレーニングベースラインと等価パラメータ数との比較により,SMoE-Dropout の優れた性能と計算精度を実証した。
論文 参考訳(メタデータ) (2023-03-02T22:12:51Z) - SMILE: Scaling Mixture-of-Experts with Efficient Bi-level Routing [47.11171833082974]
我々は、異種ネットワーク帯域を利用するSMILEを導入し、シングルステップのルーティングをバイレベルルーティングに分割する。
提案手法は, コンバージェンス速度を損なうことなく, コロッサルクリーンクローリングコーパスのプリトレーニングスループットにおいて, スイッチ変換器の2.5倍の高速化が得られることを示す。
論文 参考訳(メタデータ) (2022-12-10T03:44:16Z) - StableMoE: Stable Routing Strategy for Mixture of Experts [109.0602120199226]
Mixture-of-Experts (MoE)技術は、安価な計算オーバーヘッドでトランスフォーマーのモデルサイズをスケールアップすることができる。
本稿では、ルーティング変動問題に対処する2つのトレーニング段階を持つStableMoEを提案する。
その結果,StableMoEは収束速度と性能の両面で既存のMoE法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-18T16:48:19Z) - MEST: Accurate and Fast Memory-Economic Sparse Training Framework on the
Edge [72.16021611888165]
本稿では,エッジデバイス上での高精度かつ高速な実行を目的とした,メモリ・エコノミクス・スパース・トレーニング(MEST)フレームワークを提案する。
提案されているMESTフレームワークは、Elastic Mutation (EM)とSoft Memory Bound (&S)による拡張で構成されている。
以上の結果から,スペーサマスクの動的探索においても,忘れられない例をその場で特定できることが示唆された。
論文 参考訳(メタデータ) (2021-10-26T21:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。