論文の概要: Multi-Head Self-Attention with Role-Guided Masks
- arxiv url: http://arxiv.org/abs/2012.12366v1
- Date: Tue, 22 Dec 2020 21:34:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 07:34:24.395787
- Title: Multi-Head Self-Attention with Role-Guided Masks
- Title(参考訳): ロールガイドマスクを用いたマルチヘッドセルフアテンション
- Authors: Dongsheng Wang and Casper Hansen and Lucas Chaves Lima and Christian
Hansen and Maria Maistro and Jakob Grue Simonsen and Christina Lioma
- Abstract要約: 本稿では,先行作業における役割を重要視する上での注意を導く手法を提案する。
これを行うには、入力の特定の部分に出席する頭を制限する役割固有のマスクを定義します。
7つの異なるデータセットを用いたテキスト分類と機械翻訳の実験により,本手法が競合注意ベース,CNN,RNNベースラインより優れていることが示された。
- 参考スコア(独自算出の注目度): 20.955992710112216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The state of the art in learning meaningful semantic representations of words
is the Transformer model and its attention mechanisms. Simply put, the
attention mechanisms learn to attend to specific parts of the input dispensing
recurrence and convolutions. While some of the learned attention heads have
been found to play linguistically interpretable roles, they can be redundant or
prone to errors. We propose a method to guide the attention heads towards roles
identified in prior work as important. We do this by defining role-specific
masks to constrain the heads to attend to specific parts of the input, such
that different heads are designed to play different roles. Experiments on text
classification and machine translation using 7 different datasets show that our
method outperforms competitive attention-based, CNN, and RNN baselines.
- Abstract(参考訳): 意味のある単語の意味表現を学ぶ技術の現状は、トランスフォーマーモデルとその注意のメカニズムである。
簡単に言えば、注意機構は、繰り返しや畳み込みを許容する入力の特定の部分に従うことを学ぶ。
学習された注意ヘッドのいくつかは言語的に解釈可能な役割を演じることが発見されているが、それらは冗長であるかエラーになりやすい。
本稿では,先行作業における役割を重要視する上での注意を導く手法を提案する。
私たちは、異なるヘッドが異なる役割を演じるようにデザインされるように、入力の特定の部分に頭を拘束するために、役割固有のマスクを定義します。
7つの異なるデータセットを用いたテキスト分類と機械翻訳の実験により,本手法が競合注意ベース,CNN,RNNベースラインより優れていることが示された。
関連論文リスト
- Picking the Underused Heads: A Network Pruning Perspective of Attention
Head Selection for Fusing Dialogue Coreference Information [50.41829484199252]
マルチヘッド自己アテンション機構を持つトランスフォーマーベースのモデルは自然言語処理で広く利用されている。
ネットワークプルーニングの観点から,特徴注入のためのアテンションヘッドの選択と操作戦略について検討する。
論文 参考訳(メタデータ) (2023-12-15T05:27:24Z) - Attention Lens: A Tool for Mechanistically Interpreting the Attention
Head Information Retrieval Mechanism [4.343604069244352]
本稿では,研究者が注目ヘッドの出力を語彙トークンに変換するツールであるAttention Lensを提案する。
トレーニングレンズから得られた予備的な知見は、注意頭が言語モデルにおいて極めて専門的な役割を担っていることを示している。
論文 参考訳(メタデータ) (2023-10-25T01:03:35Z) - Analysis of Self-Attention Head Diversity for Conformer-based Automatic
Speech Recognition [36.53453860656191]
頭部の多様性を高めるためのアプローチについて検討する。
トレーニング中に多様性を促進させる補助的損失関数を導入することは、より効果的なアプローチであることを示す。
最後に,アテンションヘッドの多様性と,頭部パラメータの勾配の類似性とを関連づける。
論文 参考訳(メタデータ) (2022-09-13T15:50:03Z) - Differentiable Subset Pruning of Transformer Heads [71.7904179689271]
差別化可能なサブセットプルーニングと呼ぶ新しいヘッドプルーニング手法を導入する。
分割可能なサブセットプルーニングは,スパーシリティレベルを正確に制御しながら,従来の作業と同等あるいは良好に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-08-10T13:08:34Z) - A Dynamic Head Importance Computation Mechanism for Neural Machine
Translation [22.784419165117512]
複数のアテンションヘッドを使用する並列アテンション機構は、様々な用途でTransformerモデルの性能を向上させる。
本研究では,入力に対する頭部の重要度を動的に計算する動的頭部重要度計算機構(DHICM)の設計に焦点をあてる。
モデルがすべてのヘッドに同じスコアを割り当てることを防ぐために、余分な損失関数を追加し、より重要なヘッドを特定し、パフォーマンスを即興で向上する。
論文 参考訳(メタデータ) (2021-08-03T09:16:55Z) - Dodrio: Exploring Transformer Models with Interactive Visualization [10.603327364971559]
Dodrioは、NLP研究者や実践者が言語知識を持つトランスベースのモデルにおける注意メカニズムを分析するのに役立つオープンソースのインタラクティブビジュアライゼーションツールです。
注意重みと言語知識の視覚的比較を容易にするために、dodrioはより長い入力テキストで注意重みを表すために異なるグラフ視覚化技術を適用する。
論文 参考訳(メタデータ) (2021-03-26T17:39:37Z) - Learning Hard Retrieval Decoder Attention for Transformers [69.40942736249397]
トランスフォーマー変換モデルは、容易に並列化できるマルチヘッドアテンション機構に基づいている。
ハード検索の注意機構は復号化の1.43倍高速であることを示す。
論文 参考訳(メタデータ) (2020-09-30T13:18:57Z) - Multi-Head Attention: Collaborate Instead of Concatenate [85.71058762269374]
我々は,頭部が共有投影を学習できる,協調的な多面的アテンション層を提案する。
実験により、キー/クエリの次元の共有は言語理解、機械翻訳、ビジョンに活用できることを確認した。
論文 参考訳(メタデータ) (2020-06-29T20:28:52Z) - Salience Estimation with Multi-Attention Learning for Abstractive Text
Summarization [86.45110800123216]
テキスト要約のタスクでは、単語、フレーズ、文のサリエンス推定が重要な要素である。
本稿では,サラレンス推定のための2つの新しい注目学習要素を含むマルチアテンション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-07T02:38:56Z) - Fixed Encoder Self-Attention Patterns in Transformer-Based Machine
Translation [73.11214377092121]
我々は,各エンコーダ層の注意頭数のみを,単純な固定型(非学習型)の注意パターンに置き換えることを提案する。
異なるデータサイズと複数の言語ペアを用いた実験により、トレーニング時にトランスフォーマーのエンコーダ側でアテンションヘッドを固定することは翻訳品質に影響を与えないことが示された。
論文 参考訳(メタデータ) (2020-02-24T13:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。