論文の概要: Taming Sparsely Activated Transformer with Stochastic Experts
- arxiv url: http://arxiv.org/abs/2110.04260v2
- Date: Tue, 12 Oct 2021 02:46:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 10:45:03.846102
- Title: Taming Sparsely Activated Transformer with Stochastic Experts
- Title(参考訳): 確率的エキスパートによる疎活性化変圧器のモデリング
- Authors: Simiao Zuo, Xiaodong Liu, Jian Jiao, Young Jin Kim, Hany Hassan,
Ruofei Zhang, Tuo Zhao, Jianfeng Gao
- Abstract要約: わずかに活性化されたモデル(SAM)は、計算コストを大幅に増加させることなく、非常に大量のパラメータを持つように容易にスケールすることができる。
本稿では,新しいエキスパートベースモデルTHOR(Transformer witH StOchastic ExpeRts)を提案する。
Switch Transformerのような古典的なエキスパートベースのモデルとは異なり、THORの専門家はトレーニングと推論の間、各入力に対してランダムにアクティベートされる。
- 参考スコア(独自算出の注目度): 76.0711573018493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparsely activated models (SAMs), such as Mixture-of-Experts (MoE), can
easily scale to have outrageously large amounts of parameters without
significant increase in computational cost. However, SAMs are reported to be
parameter inefficient such that larger models do not always lead to better
performance. While most on-going research focuses on improving SAMs models by
exploring methods of routing inputs to experts, our analysis reveals that such
research might not lead to the solution we expect, i.e., the commonly-used
routing methods based on gating mechanisms do not work better than randomly
routing inputs to experts. In this paper, we propose a new expert-based model,
THOR (Transformer witH StOchastic ExpeRts). Unlike classic expert-based models,
such as the Switch Transformer, experts in THOR are randomly activated for each
input during training and inference. THOR models are trained using a
consistency regularized loss, where experts learn not only from training data
but also from other experts as teachers, such that all the experts make
consistent predictions. We validate the effectiveness of THOR on machine
translation tasks. Results show that THOR models are more parameter efficient
in that they significantly outperform the Transformer and MoE models across
various settings. For example, in multilingual translation, THOR outperforms
the Switch Transformer by 2 BLEU scores, and obtains the same BLEU score as
that of a state-of-the-art MoE model that is 18 times larger. Our code is
publicly available at:
https://github.com/microsoft/Stochastic-Mixture-of-Experts.
- Abstract(参考訳): Mixture-of-Experts (MoE) のようなスパースアクティベートモデル(SAM)は、計算コストを大幅に増加させることなく、非常に大量のパラメータを持つように容易にスケールすることができる。
しかし、SAMはパラメータ非効率であると報告されており、大きなモデルが必ずしもより良いパフォーマンスをもたらすとは限らない。
現在進行中のほとんどの研究は、専門家に入力をルーティングする方法を探索することでSAMsモデルの改善に重点を置いているが、そのような研究は我々が期待する解決には至らないかもしれない。
本稿では,新たなエキスパートベースモデルであるthor(transformer with stochastic experts)を提案する。
Switch Transformerのような古典的なエキスパートベースのモデルとは異なり、THORの専門家はトレーニングや推論中に各入力に対してランダムに活性化される。
thorモデルは一貫性のある正規化損失を用いてトレーニングされ、専門家はトレーニングデータからだけでなく、教師として他の専門家からも学び、すべての専門家が一貫した予測を行う。
機械翻訳作業におけるTHORの有効性を検証する。
その結果,THORモデルの方がパラメータ効率が良く,TransformerモデルやMoEモデルよりも優れていることがわかった。
例えば、多言語翻訳では、thorはスイッチトランスフォーマーを2 bleuスコアで上回り、最先端のmoeモデルの18倍の大きさのbleuスコアを得る。
私たちのコードは、https://github.com/microsoft/Stochastic-Mixture-of-Experts.comで公開されています。
関連論文リスト
- Unchosen Experts Can Contribute Too: Unleashing MoE Models' Power by Self-Contrast [58.98411447739218]
Mixture-of-Experts (MoE) は、計算効率を保ちながら、モデルサイズをスケールするための顕著なアーキテクチャとして登場した。
本研究では,無声専門家を推論中に自己コントラスト的に活用する学習自由戦略である自己コントラスト混合(SCMoE)を提案する。
我々の手法は概念的には単純で計算量も軽量であり、グリージー復号法に比べて最小限の遅延を発生させる。
論文 参考訳(メタデータ) (2024-05-23T12:45:29Z) - Dynamic Mixture of Experts: An Auto-Tuning Approach for Efficient Transformer Models [33.834215393960605]
本稿では,トランスフォーマーに基づく基礎モデルのトレーニングと推論の効率を高めるために,DynMoE(Dynamic Mixture of Experts)技術を導入する。
DynMoEには、各トークンがアクティベートする専門家の数を自動的に決定できる新しいゲーティングメソッドが組み込まれている。
本研究は,視覚・言語タスクにおけるGMoEと視覚言語タスクにおけるMoE-LLaVAとの競合性能を比較検討した。
論文 参考訳(メタデータ) (2024-05-23T08:18:30Z) - Efficient Fine-tuning of Audio Spectrogram Transformers via Soft Mixture of Adapters [11.05223262950967]
最近、Mixture of Experts (MoE)アーキテクチャは、計算コストを安価に保ちながらモデルの容量を拡大する能力のために、急成長を始めた。
本稿では,音響スペクトル変換器のパラメータ効率の高い微調整におけるMoEの使用を,下流の音声や音声の処理に用いていることを示す。
アダプタをエキスパートとして利用し、最近のSoft MoEメソッドを利用して、入力トークンとエキスパートの間のソフトな割り当てに依存して計算時間を制限している。
論文 参考訳(メタデータ) (2024-02-01T18:16:04Z) - Soft Merging of Experts with Adaptive Routing [38.962451264172856]
適応ルーティングによるエキスパートのソフトマージ(SMEAR)について紹介する
SMEARは、専門家のパラメータの重み付け平均を通して構築された単一の「マージされた」専門家を使用することで、離散的なルーティングを避ける。
我々は,メタデータに基づいた経路モデルや,勾配推定によるスパースルーティングを学習するSMEARモデルを用いたモデルの有効性を実証的に検証した。
論文 参考訳(メタデータ) (2023-06-06T15:04:31Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Gating Dropout: Communication-efficient Regularization for Sparsely
Activated Transformers [78.77361169167149]
本稿では,トークンがゲーティングネットワークを無視してローカルマシンに留まることを可能にするEmphGating Dropoutを提案する。
従来のドロップアウトと同様に、Gating Dropoutはトレーニング中に正規化効果があり、その結果、一般化性能が向上することを示す。
論文 参考訳(メタデータ) (2022-05-28T05:12:43Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。