論文の概要: Talking-Heads Attention
- arxiv url: http://arxiv.org/abs/2003.02436v1
- Date: Thu, 5 Mar 2020 05:17:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 06:16:01.892224
- Title: Talking-Heads Attention
- Title(参考訳): 講演の注意
- Authors: Noam Shazeer, Zhenzhong Lan, Youlong Cheng, Nan Ding, Le Hou
- Abstract要約: トーキング・ヘッドズ・アテンション(Talking-heads attention)は、マルチヘッド・アテンションのバリエーションである。
話し言葉の注意は、マスキングされた言語モデリングタスクの難易度を向上させる。
また、言語理解や質問応答タスクへの移行学習の質も向上する。
- 参考スコア(独自算出の注目度): 15.018494974219873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce "talking-heads attention" - a variation on multi-head attention
which includes linearprojections across the attention-heads dimension,
immediately before and after the softmax operation.While inserting only a small
number of additional parameters and a moderate amount of additionalcomputation,
talking-heads attention leads to better perplexities on masked language
modeling tasks, aswell as better quality when transfer-learning to language
comprehension and question answering tasks.
- Abstract(参考訳): 我々は,「トーキング・ヘッドズ・アテンション (talking-heads attention) - ソフトマックス操作前後の注意領域の線形射影を含む多面的アテンション(多面的アテンション) - 少数の追加パラメータと適度な追加計算を挿入すると, 会話・ヘッドのアテンションは, マスク付き言語モデリングタスクにおいて, より複雑なものとなり, 言語理解や質問応答タスクへの伝達学習の質が向上する。
関連論文リスト
- Picking the Underused Heads: A Network Pruning Perspective of Attention
Head Selection for Fusing Dialogue Coreference Information [50.41829484199252]
マルチヘッド自己アテンション機構を持つトランスフォーマーベースのモデルは自然言語処理で広く利用されている。
ネットワークプルーニングの観点から,特徴注入のためのアテンションヘッドの選択と操作戦略について検討する。
論文 参考訳(メタデータ) (2023-12-15T05:27:24Z) - Fortify the Shortest Stave in Attention: Enhancing Context Awareness of Large Language Models for Effective Tool Use [74.72150542395487]
大規模言語モデル(LLM)の注意配分における固有波形パターンは、高い文脈認識を必要とするタスクにおいて、その性能に大きな影響を及ぼす。
この問題に対処するため,Attention Buckets という新しい推論手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T17:24:51Z) - HAN: Higher-order Attention Network for Spoken Language Understanding [31.326152465734747]
本稿では,従来の注目ブロックをバイリニアアテンションブロックに置き換えることを提案する。
我々は,高次の注目から得られる有効性を探るため,幅広い分析を行う。
論文 参考訳(メタデータ) (2021-08-26T17:13:08Z) - A Dynamic Head Importance Computation Mechanism for Neural Machine
Translation [22.784419165117512]
複数のアテンションヘッドを使用する並列アテンション機構は、様々な用途でTransformerモデルの性能を向上させる。
本研究では,入力に対する頭部の重要度を動的に計算する動的頭部重要度計算機構(DHICM)の設計に焦点をあてる。
モデルがすべてのヘッドに同じスコアを割り当てることを防ぐために、余分な損失関数を追加し、より重要なヘッドを特定し、パフォーマンスを即興で向上する。
論文 参考訳(メタデータ) (2021-08-03T09:16:55Z) - Learning Hard Retrieval Decoder Attention for Transformers [69.40942736249397]
トランスフォーマー変換モデルは、容易に並列化できるマルチヘッドアテンション機構に基づいている。
ハード検索の注意機構は復号化の1.43倍高速であることを示す。
論文 参考訳(メタデータ) (2020-09-30T13:18:57Z) - Repulsive Attention: Rethinking Multi-head Attention as Bayesian
Inference [68.12511526813991]
ベイズの視点からの多面的注目の新たな理解を提供する。
マルチヘッドアテンションにおける反発性を明示的に改善する非パラメトリックアプローチを提案する。
様々な注意モデルや応用実験により、提案された反発的注意が学習された特徴の多様性を向上させることが示されている。
論文 参考訳(メタデータ) (2020-09-20T06:32:23Z) - Attention Flows: Analyzing and Comparing Attention Mechanisms in
Language Models [5.866941279460248]
注意に基づく言語モデルにおける微調整を理解するための視覚分析手法を提案する。
私たちの視覚化であるAttention Flowsは、Transformerベースの言語モデルにおいて、レイヤ内のクエリ、トレース、関心の比較をサポートするように設計されています。
論文 参考訳(メタデータ) (2020-09-03T19:56:30Z) - Multi-Head Attention: Collaborate Instead of Concatenate [85.71058762269374]
我々は,頭部が共有投影を学習できる,協調的な多面的アテンション層を提案する。
実験により、キー/クエリの次元の共有は言語理解、機械翻訳、ビジョンに活用できることを確認した。
論文 参考訳(メタデータ) (2020-06-29T20:28:52Z) - Low-Rank Bottleneck in Multi-head Attention Models [74.83235382203604]
現在のアーキテクチャにおけるヘッド数とヘッドサイズの間のスケーリングは、注目ヘッドの低ランクボトルネックを引き起こします。
本稿では,アテンションユニットの頭部サイズを入力シーケンス長に設定し,ヘッド数に依存しないようにすることを提案する。
論文 参考訳(メタデータ) (2020-02-17T16:16:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。