論文の概要: A Mixture of $h-1$ Heads is Better than $h$ Heads
- arxiv url: http://arxiv.org/abs/2005.06537v1
- Date: Wed, 13 May 2020 19:05:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 13:07:42.909286
- Title: A Mixture of $h-1$ Heads is Better than $h$ Heads
- Title(参考訳): $h-1$ Headsは$h-1$ Headsより優れている
- Authors: Hao Peng, Roy Schwartz, Dianqi Li, and Noah A. Smith
- Abstract要約: 我々は注意的専門家モデル(MAE)の混合を提案する。
機械翻訳と言語モデリングの実験により、MAEは両方のタスクにおいて強いベースラインを上回ります。
分析の結果、我々のモデルは、異なる専門家を異なる入力に専門化することを学びました。
- 参考スコア(独自算出の注目度): 63.12336930345417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-head attentive neural architectures have achieved state-of-the-art
results on a variety of natural language processing tasks. Evidence has shown
that they are overparameterized; attention heads can be pruned without
significant performance loss. In this work, we instead "reallocate" them -- the
model learns to activate different heads on different inputs. Drawing
connections between multi-head attention and mixture of experts, we propose the
mixture of attentive experts model (MAE). MAE is trained using a block
coordinate descent algorithm that alternates between updating (1) the
responsibilities of the experts and (2) their parameters. Experiments on
machine translation and language modeling show that MAE outperforms strong
baselines on both tasks. Particularly, on the WMT14 English to German
translation dataset, MAE improves over "transformer-base" by 0.8 BLEU, with a
comparable number of parameters. Our analysis shows that our model learns to
specialize different experts to different inputs.
- Abstract(参考訳): マルチヘッド注意型ニューラルアーキテクチャは、様々な自然言語処理タスクにおいて最先端の結果を得た。
過剰パラメータである証拠が示されており、注意ヘッドはパフォーマンスを損なうことなく刈り取ることができる。
この作業では、代わりにそれらを"再配置"します -- モデルは異なる入力で異なるヘッドを活性化するように学習します。
本稿では,多面的注意と専門家の混在の関連性について,注意的専門家モデル(MAE)の混合を提案する。
MAEは(1)専門家の責任と(2)パラメータの更新を交互に行うブロック座標降下アルゴリズムを用いて訓練される。
機械翻訳と言語モデリングの実験により、MAEは両方のタスクにおいて強いベースラインを上回ります。
特に、WMT14の英語からドイツ語への翻訳データセットでは、MAEは"transformer-base"を0.8 BLEUで改善し、同じ数のパラメータを持つ。
分析の結果、我々のモデルは、異なる専門家を異なる入力に専門化することを学びました。
関連論文リスト
- Harder Tasks Need More Experts: Dynamic Routing in MoE Models [58.18526590138739]
本稿では,Mixture of Experts(MoE)モデルのための新しい動的専門家選択フレームワークを提案する。
提案手法は,各入力に対する専門家選択の信頼性レベルに基づいて,専門家を動的に選択する。
論文 参考訳(メタデータ) (2024-03-12T13:41:15Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through
Factorization [54.227054670896884]
大きな問題は、十分にきめ細かい特殊化を達成するために専門家の数をスケーリングする計算コストである。
本稿では,MMOE(Multilinear Mixutre of Experts)層を提案する。
視覚タスクの微調整基礎モデルにおけるMMoE層のスケーリングは,クラスレベルでより専門的な専門家に導かれるという,定性的かつ定量的な証拠を提示する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - Diversifying the Mixture-of-Experts Representation for Language Models
with Orthogonal Optimizer [62.41501243027603]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,エキスパートエンティティであるOMoEという,単純かつ高効率なソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-15T07:20:28Z) - Mixed Autoencoder for Self-supervised Visual Representation Learning [95.98114940999653]
Masked Autoencoder (MAE) は、画像パッチと再構成をランダムにマスキングすることで、様々な視覚タスクにおいて優れた性能を示す。
本稿では,MAEのミキシング強化について検討する。
論文 参考訳(メタデータ) (2023-03-30T05:19:43Z) - Mixture-of-Experts with Expert Choice Routing [44.777850078713634]
以前の作業では、トップk関数を使用して各トークンに一定数の専門家を割り当てていた。
本稿では,専門家選択手法を用いた異種混合実験を提案する。
本手法は, トレーニング収束時間を2倍以上改善する。
論文 参考訳(メタデータ) (2022-02-18T17:46:11Z) - Taming Sparsely Activated Transformer with Stochastic Experts [76.0711573018493]
わずかに活性化されたモデル(SAM)は、計算コストを大幅に増加させることなく、非常に大量のパラメータを持つように容易にスケールすることができる。
本稿では,新しいエキスパートベースモデルTHOR(Transformer witH StOchastic ExpeRts)を提案する。
Switch Transformerのような古典的なエキスパートベースのモデルとは異なり、THORの専門家はトレーニングと推論の間、各入力に対してランダムにアクティベートされる。
論文 参考訳(メタデータ) (2021-10-08T17:15:47Z) - Cascaded Head-colliding Attention [28.293881246428377]
トランスフォーマーは、様々な重要なタスクにおいて自然言語処理(NLP)の分野を進歩させてきた。
本稿では, 階層的変動分布を通して, 注目頭部間の相互作用を明示的にモデル化するCODA(Cascaded Head-colliding attention)を提案する。
論文 参考訳(メタデータ) (2021-05-31T10:06:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。