論文の概要: Dense-to-Sparse Gate for Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2112.14397v1
- Date: Wed, 29 Dec 2021 04:52:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-30 14:47:31.199618
- Title: Dense-to-Sparse Gate for Mixture-of-Experts
- Title(参考訳): ミックスオブサートのためのDense-to-Sparse Gate
- Authors: Xiaonan Nie, Shijie Cao, Xupeng Miao, Lingxiao Ma, Jilong Xue, Youshan
Miao, Zichao Yang, Zhi Yang, Bin Cui
- Abstract要約: 本研究では,Mixture-of-Experts(MoE)トレーニングのためのDense-To-Sparse Gate(DTS-Gate)を提案する。
DTS-Gateは、トークンをすべての専門家にルーティングする密集したゲートとして始まり、その後徐々に適応的にスペーサーになり、より少ない専門家にルートする。
DTS-Gateは、同じ検証難易度に達するために2.0倍のスピードアップを得ることができ、FLOPs効率が1.42倍に向上する。
- 参考スコア(独自算出の注目度): 20.72016875854268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-experts (MoE) is becoming popular due to its success in improving
the model quality, especially in Transformers. By routing tokens with a sparse
gate to a few experts that each only contains part of the full model, MoE keeps
the model size unchanged and significantly reduces per-token computation, which
effectively scales neural networks. However, we found that the current approach
of jointly training experts and the sparse gate introduces a negative impact on
model accuracy, diminishing the efficiency of expensive large-scale model
training. In this work, we proposed Dense-To-Sparse gate (DTS-Gate) for MoE
training. Specifically, instead of using a permanent sparse gate, DTS-Gate
begins as a dense gate that routes tokens to all experts, then gradually and
adaptively becomes sparser while routes to fewer experts. MoE with DTS-Gate
naturally decouples the training of experts and the sparse gate by training all
experts at first and then learning the sparse gate. Experiments show that
compared with the state-of-the-art Switch-Gate in GPT-MoE(1.5B) model with
OpenWebText dataset(40GB), DTS-Gate can obtain 2.0x speed-up to reach the same
validation perplexity, as well as higher FLOPs-efficiency of a 1.42x speed-up.
- Abstract(参考訳): 特に変圧器のモデル品質向上に成功し、moe(mixed-of-experts)が普及している。
sparseゲートでトークンをルーティングすることで、各トークンがフルモデルの一部しか含まないという専門家に、moeはモデルサイズを変更せず、ニューラルネットワークを効果的にスケールする分単位の計算を大幅に削減する。
しかし,現在の訓練専門家とスパースゲートのアプローチは,モデル精度に負の影響をもたらし,高価な大規模モデルトレーニングの効率を低下させることがわかった。
そこで本研究では,moe訓練のためにdtsゲートを提案する。
具体的には、恒久的なスパースゲートを使用する代わりに、DTS-Gateは、トークンをすべての専門家にルートする密集ゲートとして始まり、徐々に適応的にスペーサーとなり、より少ない専門家にルートする。
DTS-GateのMoEは、専門家の訓練とスパースゲートを自然に分離し、すべての専門家を訓練し、スパースゲートを学ぶ。
実験の結果、GPT-MoE(1.5B)モデルとOpenWebTextデータセット(40GB)を比較して、DTS-Gateは同じ検証の難易度に到達するために2.0倍のスピードアップを得ることができ、FLOPの効率は1.42倍に向上した。
関連論文リスト
- LocMoE: A Low-Overhead MoE for Large Language Model Training [13.153904674287546]
本稿では,部分的なノード間通信をノード内通信に変換することで,負荷バランスと局所性を組み合わせた新しいルーティング手法を提案する。
提案されたLocMoEは、古典的なルータと比較して、エポックあたりのトレーニング時間を12.68%削減して22.24%に短縮した。
論文 参考訳(メタデータ) (2024-01-25T03:36:39Z) - Robust Mixture-of-Expert Training for Convolutional Neural Networks [141.3531209949845]
スパースゲート型Mixture of Expert (MoE) は高精度で超効率的なモデル推論を実現するための大きな可能性を実証している。
本稿では、AdvMoEと呼ばれるMoEのための新しいルータ-エキスパート交互学習フレームワークを提案する。
その結果,AdvMoEは従来の高密度CNNに比べて1%の対向ロバスト性向上を実現し,親和性に富むMoEの有効性を享受できることがわかった。
論文 参考訳(メタデータ) (2023-08-19T20:58:21Z) - Decouple Graph Neural Networks: Train Multiple Simple GNNs Simultaneously Instead of One [60.5818387068983]
グラフニューラルネットワーク(GNN)は、深刻な非効率性に悩まされている。
我々は,より効率的なトレーニングを行うために,多層GNNを複数の単純なモジュールとして分離することを提案する。
提案するフレームワークは,合理的な性能で高い効率性を示す。
論文 参考訳(メタデータ) (2023-04-20T07:21:32Z) - TA-MoE: Topology-Aware Large Scale Mixture-of-Expert Training [18.68993910156101]
大規模MoEトレーニングのためのトポロジ対応ルーティング戦略であるTA-MoEを提案する。
TA-MoEは,様々なハードウェアやモデル構成において,その性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-02-20T11:18:24Z) - SMILE: Scaling Mixture-of-Experts with Efficient Bi-level Routing [47.11171833082974]
我々は、異種ネットワーク帯域を利用するSMILEを導入し、シングルステップのルーティングをバイレベルルーティングに分割する。
提案手法は, コンバージェンス速度を損なうことなく, コロッサルクリーンクローリングコーパスのプリトレーニングスループットにおいて, スイッチ変換器の2.5倍の高速化が得られることを示す。
論文 参考訳(メタデータ) (2022-12-10T03:44:16Z) - Gating Dropout: Communication-efficient Regularization for Sparsely
Activated Transformers [78.77361169167149]
本稿では,トークンがゲーティングネットワークを無視してローカルマシンに留まることを可能にするEmphGating Dropoutを提案する。
従来のドロップアウトと同様に、Gating Dropoutはトレーニング中に正規化効果があり、その結果、一般化性能が向上することを示す。
論文 参考訳(メタデータ) (2022-05-28T05:12:43Z) - Taming Sparsely Activated Transformer with Stochastic Experts [76.0711573018493]
わずかに活性化されたモデル(SAM)は、計算コストを大幅に増加させることなく、非常に大量のパラメータを持つように容易にスケールすることができる。
本稿では,新しいエキスパートベースモデルTHOR(Transformer witH StOchastic ExpeRts)を提案する。
Switch Transformerのような古典的なエキスパートベースのモデルとは異なり、THORの専門家はトレーニングと推論の間、各入力に対してランダムにアクティベートされる。
論文 参考訳(メタデータ) (2021-10-08T17:15:47Z) - GDP: Stabilized Neural Network Pruning via Gates with Differentiable
Polarization [84.57695474130273]
ゲートベースまたは重要度に基づくプルーニング手法は、重要度が最小のチャネルを削除することを目的としている。
GDPは、各チャネルのオン・アンド・オフを制御するために、ベルやホイッスルのない畳み込み層の前に接続することができる。
CIFAR-10とImageNetデータセットを用いて行った実験は、提案したGDPが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2021-09-06T03:17:10Z) - Chasing Sparsity in Vision Transformers: An End-to-End Exploration [127.10054032751714]
ビジョン・トランスフォーマー(ViT)は最近爆発的な人気を博したが、その巨大なモデルサイズとトレーニングコストは依然として大きなものだ。
本稿では、達成可能な精度を犠牲にすることなく、トレーニングメモリのオーバーヘッドと推論の複雑さの両方を削減することを目的とする。
具体的には、完全なViTをトレーニングする代わりに、固定された小さなパラメータ予算に固執しながら、スパースワークを動的に抽出し、訓練する。
論文 参考訳(メタデータ) (2021-06-08T17:18:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。