論文の概要: Gating Dropout: Communication-efficient Regularization for Sparsely
Activated Transformers
- arxiv url: http://arxiv.org/abs/2205.14336v1
- Date: Sat, 28 May 2022 05:12:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-04 22:00:59.628792
- Title: Gating Dropout: Communication-efficient Regularization for Sparsely
Activated Transformers
- Title(参考訳): ゲーティングドロップアウト:疎活性化変圧器の通信効率向上
- Authors: Rui Liu, Young Jin Kim, Alexandre Muzio, Barzan Mozafari, Hany Hassan
Awadalla
- Abstract要約: 本稿では,トークンがゲーティングネットワークを無視してローカルマシンに留まることを可能にするEmphGating Dropoutを提案する。
従来のドロップアウトと同様に、Gating Dropoutはトレーニング中に正規化効果があり、その結果、一般化性能が向上することを示す。
- 参考スコア(独自算出の注目度): 78.77361169167149
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparsely activated transformers, such as Mixture of Experts (MoE), have
received great interest due to their outrageous scaling capability which
enables dramatical increases in model size without significant increases in
computational cost. To achieve this, MoE models replace the feedforward
sub-layer with Mixture-of-Experts sub-layer in transformers and use a gating
network to route each token to its assigned experts. Since the common practice
for efficient training of such models requires distributing experts and tokens
across different machines, this routing strategy often incurs huge
cross-machine communication cost because tokens and their assigned experts
likely reside in different machines. In this paper, we propose \emph{Gating
Dropout}, which allows tokens to ignore the gating network and stay at their
local machines, thus reducing the cross-machine communication. Similar to
traditional dropout, we also show that Gating Dropout has a regularization
effect during training, resulting in improved generalization performance. We
validate the effectiveness of Gating Dropout on multilingual machine
translation tasks. Our results demonstrate that Gating Dropout improves a
state-of-the-art MoE model with faster wall-clock time convergence rates and
better BLEU scores for a variety of model sizes and datasets.
- Abstract(参考訳): 混合専門家(moe)のような緩やかにアクティベートされたトランスフォーマーは、計算コストを大幅に増加させることなく、モデルサイズを劇的に増やすことができる無謀なスケーリング能力によって大きな関心を集めている。
これを実現するため、MoEモデルはトランスフォーマー内のフィードフォワードサブレイヤをMixture-of-Expertsサブレイヤに置き換え、ゲーティングネットワークを使用して各トークンを割り当てられた専門家にルーティングする。
このようなモデルの効率的なトレーニングには、さまざまなマシンに専門家とトークンを分散する必要があるため、このルーティング戦略は、トークンと割り当てられた専門家が異なるマシンにいることから、大きなマシン間通信コストを発生させることが多い。
本稿では,トークンがゲーティングネットワークを無視し,ローカルマシンに留まり,マシン間通信を減少させる, \emph{gating dropout} を提案する。
従来のドロップアウトと同様に,ゲーティングドロップアウトはトレーニング中に正規化効果があり,一般化性能が向上することを示した。
多言語機械翻訳作業におけるゲーティングドロップアウトの有効性を検証する。
その結果,ガティングドロップアウトは壁時計時間収束率を高速化し,様々なモデルサイズやデータセットのbleuスコアを向上し,最先端のmoeモデルを改善した。
関連論文リスト
- Masked Mixers for Language Generation and Retrieval [0.0]
トランスにおける入力表現の精度は低いが,マスクミキサーではより正確に表現できる。
TinyStoriesに適用されたマスク付きミキサーは、初期のトランスフォーマー実装よりも効率的に因果言語タスクを学習する。
本稿では,既存の生成モデル埋め込みに基づく検索モデルの効率的なトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:17:18Z) - Efficient Fine-tuning of Audio Spectrogram Transformers via Soft Mixture of Adapters [11.05223262950967]
最近、Mixture of Experts (MoE)アーキテクチャは、計算コストを安価に保ちながらモデルの容量を拡大する能力のために、急成長を始めた。
本稿では,音響スペクトル変換器のパラメータ効率の高い微調整におけるMoEの使用を,下流の音声や音声の処理に用いていることを示す。
アダプタをエキスパートとして利用し、最近のSoft MoEメソッドを利用して、入力トークンとエキスパートの間のソフトな割り当てに依存して計算時間を制限している。
論文 参考訳(メタデータ) (2024-02-01T18:16:04Z) - Sparse MoE as the New Dropout: Scaling Dense and Self-Slimmable
Transformers [107.3726071306935]
そこで我々は,SMoE-Dropoutというプラグイン・アンド・プレイ・トレーニング・フレームワークを提案する。
SMoE-Dropoutはランダムで固定されたルータネットワークで構成され、エキスパートを活性化し、トレーニングが進むにつれて、アクティベートされたエキスパート数を徐々に増加させる。
本実験では,SMoE-Dropout の高密度トレーニングベースラインと等価パラメータ数との比較により,SMoE-Dropout の優れた性能と計算精度を実証した。
論文 参考訳(メタデータ) (2023-03-02T22:12:51Z) - SMILE: Scaling Mixture-of-Experts with Efficient Bi-level Routing [47.11171833082974]
我々は、異種ネットワーク帯域を利用するSMILEを導入し、シングルステップのルーティングをバイレベルルーティングに分割する。
提案手法は, コンバージェンス速度を損なうことなく, コロッサルクリーンクローリングコーパスのプリトレーニングスループットにおいて, スイッチ変換器の2.5倍の高速化が得られることを示す。
論文 参考訳(メタデータ) (2022-12-10T03:44:16Z) - AutoMoE: Heterogeneous Mixture-of-Experts with Adaptive Computation for
Efficient Neural Machine Translation [104.0979785739202]
ニューラルネットワーク翻訳(NMT)タスクにおいて、Mixture-of-Expert(MoE)モデルが最先端のパフォーマンスを得た。
既存のMoEモデルは、ネットワーク全体に同じサイズの専門家が一様に配置される均質な設計を主に考慮している。
計算制約下での不均一なMoEを設計するためのフレームワークであるAutoMoEを開発した。
論文 参考訳(メタデータ) (2022-10-14T05:32:17Z) - Taming Sparsely Activated Transformer with Stochastic Experts [76.0711573018493]
わずかに活性化されたモデル(SAM)は、計算コストを大幅に増加させることなく、非常に大量のパラメータを持つように容易にスケールすることができる。
本稿では,新しいエキスパートベースモデルTHOR(Transformer witH StOchastic ExpeRts)を提案する。
Switch Transformerのような古典的なエキスパートベースのモデルとは異なり、THORの専門家はトレーニングと推論の間、各入力に対してランダムにアクティベートされる。
論文 参考訳(メタデータ) (2021-10-08T17:15:47Z) - Enabling On-Device Training of Speech Recognition Models with Federated
Dropout [4.165917555996752]
フェデレーション学習は、デバイスを離れないローカルデータに基づいて、エッジ上の機械学習モデルをトレーニングするために使用することができる。
我々は,フルサイズのモデルサーバサイドをトレーニングしながら,クライアントモデルのサイズを減らすために,フェデレートド・ドロップアウト(Federated Dropout)を提案する。
論文 参考訳(メタデータ) (2021-10-07T17:22:40Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z) - The Cascade Transformer: an Application for Efficient Answer Sentence
Selection [116.09532365093659]
本稿では,変圧器をベースとしたモデルのカスケード化手法であるカスケード変換器について紹介する。
現状の変圧器モデルと比較すると,提案手法は精度にほとんど影響を与えずに計算量を37%削減する。
論文 参考訳(メタデータ) (2020-05-05T23:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。