Fugu-MT 論文翻訳(概要): A Mixture of $h-1$ Heads is Better than $h$ Heads

論文の概要: A Mixture of $h-1$ Heads is Better than $h$ Heads

arxiv url: http://arxiv.org/abs/2005.06537v1
Date: Wed, 13 May 2020 19:05:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-03 13:07:42.909286
Title: A Mixture of $h-1$ Heads is Better than $h$ Heads
Title（参考訳）: $h-1$ Headsは$h-1$ Headsより優れている
Authors: Hao Peng, Roy Schwartz, Dianqi Li, and Noah A. Smith
Abstract要約: 我々は注意的専門家モデル(MAE)の混合を提案する。機械翻訳と言語モデリングの実験により、MAEは両方のタスクにおいて強いベースラインを上回ります。分析の結果、我々のモデルは、異なる専門家を異なる入力に専門化することを学びました。
参考スコア（独自算出の注目度）: 63.12336930345417
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-head attentive neural architectures have achieved state-of-the-art results on a variety of natural language processing tasks. Evidence has shown that they are overparameterized; attention heads can be pruned without significant performance loss. In this work, we instead "reallocate" them -- the model learns to activate different heads on different inputs. Drawing connections between multi-head attention and mixture of experts, we propose the mixture of attentive experts model (MAE). MAE is trained using a block coordinate descent algorithm that alternates between updating (1) the responsibilities of the experts and (2) their parameters. Experiments on machine translation and language modeling show that MAE outperforms strong baselines on both tasks. Particularly, on the WMT14 English to German translation dataset, MAE improves over "transformer-base" by 0.8 BLEU, with a comparable number of parameters. Our analysis shows that our model learns to specialize different experts to different inputs.
Abstract（参考訳）: マルチヘッド注意型ニューラルアーキテクチャは、様々な自然言語処理タスクにおいて最先端の結果を得た。過剰パラメータである証拠が示されており、注意ヘッドはパフォーマンスを損なうことなく刈り取ることができる。この作業では、代わりにそれらを"再配置"します -- モデルは異なる入力で異なるヘッドを活性化するように学習します。本稿では,多面的注意と専門家の混在の関連性について,注意的専門家モデル(MAE)の混合を提案する。 MAEは(1)専門家の責任と(2)パラメータの更新を交互に行うブロック座標降下アルゴリズムを用いて訓練される。機械翻訳と言語モデリングの実験により、MAEは両方のタスクにおいて強いベースラインを上回ります。特に、WMT14の英語からドイツ語への翻訳データセットでは、MAEは"transformer-base"を0.8 BLEUで改善し、同じ数のパラメータを持つ。分析の結果、我々のモデルは、異なる専門家を異なる入力に専門化することを学びました。

関連論文リスト

NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。 NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文参考訳（メタデータ） (2024-11-08T20:11:24Z)
Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-07-12T17:25:02Z)
Dynamic Mixture of Experts: An Auto-Tuning Approach for Efficient Transformer Models [33.834215393960605]
本稿では,トランスフォーマーに基づく基礎モデルのトレーニングと推論の効率を高めるために,DynMoE(Dynamic Mixture of Experts)技術を導入する。 DynMoEには、各トークンがアクティベートする専門家の数を自動的に決定できる新しいゲーティングメソッドが組み込まれている。本研究は,視覚・言語タスクにおけるGMoEと視覚言語タスクにおけるMoE-LLaVAとの競合性能を比較検討した。
論文参考訳（メタデータ） (2024-05-23T08:18:30Z)
Multi-Head Mixture-of-Experts [100.60556163597946]
MH-MoE(Multi-Head Mixture-of-Experts)を提案する。 MH-MoEは、他のSMoE最適化手法の実装と分離が容易であり、性能向上のために他のSMoEモデルとの統合が容易である。
論文参考訳（メタデータ） (2024-04-23T13:47:09Z)
Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文参考訳（メタデータ） (2023-10-15T07:20:28Z)
Mixture-of-Experts with Expert Choice Routing [44.777850078713634]
以前の作業では、トップk関数を使用して各トークンに一定数の専門家を割り当てていた。本稿では,専門家選択手法を用いた異種混合実験を提案する。本手法は, トレーニング収束時間を2倍以上改善する。
論文参考訳（メタデータ） (2022-02-18T17:46:11Z)
Taming Sparsely Activated Transformer with Stochastic Experts [76.0711573018493]
わずかに活性化されたモデル(SAM)は、計算コストを大幅に増加させることなく、非常に大量のパラメータを持つように容易にスケールすることができる。本稿では,新しいエキスパートベースモデルTHOR(Transformer witH StOchastic ExpeRts)を提案する。 Switch Transformerのような古典的なエキスパートベースのモデルとは異なり、THORの専門家はトレーニングと推論の間、各入力に対してランダムにアクティベートされる。
論文参考訳（メタデータ） (2021-10-08T17:15:47Z)
Cascaded Head-colliding Attention [28.293881246428377]
トランスフォーマーは、様々な重要なタスクにおいて自然言語処理(NLP)の分野を進歩させてきた。本稿では, 階層的変動分布を通して, 注目頭部間の相互作用を明示的にモデル化するCODA(Cascaded Head-colliding attention)を提案する。
論文参考訳（メタデータ） (2021-05-31T10:06:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。