論文の概要: The heads hypothesis: A unifying statistical approach towards
understanding multi-headed attention in BERT
- arxiv url: http://arxiv.org/abs/2101.09115v1
- Date: Fri, 22 Jan 2021 14:10:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-20 17:32:16.161251
- Title: The heads hypothesis: A unifying statistical approach towards
understanding multi-headed attention in BERT
- Title(参考訳): 頭部仮説:BERTにおける多面的注意理解への統一統計的アプローチ
- Authors: Madhura Pande, Aakriti Budhraja, Preksha Nema, Pratyush Kumar and
Mitesh M. Khapra
- Abstract要約: マルチヘッドアテンションヘッドはトランスベースのモデルにおける主役です。
対向きの注目度の高いトークン間の関係に基づいて、各注意ヘッドの役割を分類する異なる方法が提案されている。
我々は,注意ヘッドのすべての役割に一般化する単純かつ効果的なスコアを定式化し,このスコアに仮説テストを適用してロバストな推論を行う。
- 参考スコア(独自算出の注目度): 18.13834903235249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-headed attention heads are a mainstay in transformer-based models.
Different methods have been proposed to classify the role of each attention
head based on the relations between tokens which have high pair-wise attention.
These roles include syntactic (tokens with some syntactic relation), local
(nearby tokens), block (tokens in the same sentence) and delimiter (the special
[CLS], [SEP] tokens). There are two main challenges with existing methods for
classification: (a) there are no standard scores across studies or across
functional roles, and (b) these scores are often average quantities measured
across sentences without capturing statistical significance. In this work, we
formalize a simple yet effective score that generalizes to all the roles of
attention heads and employs hypothesis testing on this score for robust
inference. This provides us the right lens to systematically analyze attention
heads and confidently comment on many commonly posed questions on analyzing the
BERT model. In particular, we comment on the co-location of multiple functional
roles in the same attention head, the distribution of attention heads across
layers, and effect of fine-tuning for specific NLP tasks on these functional
roles.
- Abstract(参考訳): マルチヘッドアテンションヘッドは、トランスフォーマーベースモデルのメインステイである。
対方向の注意度が高いトークン間の関係に基づいて各注意ヘッドの役割を分類するために異なる方法が提案されている。
これらの役割には、構文(いくつかの構文的関係を持つトークン)、局所(近傍トークン)、ブロック(同じ文のトークン)、デリミタ(特別な[CLS]、[SEP]トークン)が含まれる。
既存の分類法には2つの大きな課題がある: (a) 研究や機能的役割に標準スコアがない; (b) 統計学的意義を捉えずに、文全体で測定された平均スコアであることが多い。
本研究では,注意ヘッドのすべての役割を一般化する単純かつ効果的なスコアを定式化し,このスコアに仮説テストを適用してロバストな推論を行う。
これにより、注意ヘッドを体系的に分析し、BERTモデルの解析に関する多くの一般的な疑問に自信を持ってコメントできる適切なレンズが提供されます。
特に,同一のアテンションヘッドにおける複数の機能的役割の同時配置,レイヤ間のアテンションヘッドの分布,特定のNLPタスクの微調整が機能的役割に与える影響について述べる。
関連論文リスト
- Towards Interpreting Language Models: A Case Study in Multi-Hop Reasoning [0.0]
言語モデル(LM)は、一貫してマルチホップ推論を行うのに苦労する。
本稿では,LMアテンションヘッド上のターゲットメモリ注入によるマルチホップ推論障害をピンポイントし,修正する手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T16:30:26Z) - Disentangling Interactions and Dependencies in Feature Attribution [9.442326245744916]
機械学習において、グローバルな特徴重要度法は、対象変数の予測に個々の特徴がどの程度貢献するかを判断しようとする。
一般的に用いられる特徴重要度スコアでは、これらの協調効果は特徴の個々の貢献と混同される。
DIPは、3つの成分をアンタングルする個々の特徴重要度スコアを数学的に分解する。
論文 参考訳(メタデータ) (2024-10-31T09:41:10Z) - An Analysis of Attention via the Lens of Exchangeability and Latent Variable Models [64.87562101662952]
入力トークンは、位置エンコーディングを含むため、しばしば交換可能であることを示す。
我々は入力トークンの十分かつ最小限の表現の存在を確立する。
所望パラメータの注意が近似誤差まで潜伏した後部を推定することを証明する。
論文 参考訳(メタデータ) (2022-12-30T17:59:01Z) - Analysis of Self-Attention Head Diversity for Conformer-based Automatic
Speech Recognition [36.53453860656191]
頭部の多様性を高めるためのアプローチについて検討する。
トレーニング中に多様性を促進させる補助的損失関数を導入することは、より効果的なアプローチであることを示す。
最後に,アテンションヘッドの多様性と,頭部パラメータの勾配の類似性とを関連づける。
論文 参考訳(メタデータ) (2022-09-13T15:50:03Z) - A Song of (Dis)agreement: Evaluating the Evaluation of Explainable
Artificial Intelligence in Natural Language Processing [7.527234046228323]
我々は、注意に基づく説明のための評価指標としてランク相関を用いるのをやめるべきであると主張している。
注意に基づく説明は,最近の特徴帰属法と強く相関しないことがわかった。
論文 参考訳(メタデータ) (2022-05-09T21:07:39Z) - Compositional Attention: Disentangling Search and Retrieval [66.7108739597771]
Multi-head, key-value attention は Transformer モデルとそのバリエーションのバックボーンである。
標準的なアテンションヘッドは、検索と検索の間の厳密なマッピングを学ぶ。
本稿では,標準ヘッド構造を置き換える新しいアテンション機構であるコンポジションアテンションアテンションを提案する。
論文 参考訳(メタデータ) (2021-10-18T15:47:38Z) - ACP++: Action Co-occurrence Priors for Human-Object Interaction
Detection [102.9428507180728]
ヒューマン・オブジェクト・インタラクション(HOI)検出のタスクにおける一般的な問題は、多数のHOIクラスが少数のラベル付き例しか持たないことである。
我々は、人間と物体の相互作用の間に自然の相関関係と反相関が存在することを観察した。
我々は、これらの先行知識を学習し、特に稀なクラスにおいて、より効果的な訓練に活用する手法を提案する。
論文 参考訳(メタデータ) (2021-09-09T06:02:50Z) - Nested Counterfactual Identification from Arbitrary Surrogate
Experiments [95.48089725859298]
観測と実験の任意の組み合わせからネスト反事実の同定について検討した。
具体的には、任意のネストされた反事実を非ネストされたものへ写像できる反ファクト的非ネスト定理(英語版)(CUT)を証明する。
論文 参考訳(メタデータ) (2021-07-07T12:51:04Z) - Learning with Instance Bundles for Reading Comprehension [61.823444215188296]
質問応答スコアを複数の関連インスタンスで比較する新しい監視手法を提案する。
具体的には、密接に対照的な質問や回答のさまざまな近所でこれらのスコアを正規化します。
2つのデータセット上のインスタンスバンドルによるトレーニングの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2021-04-18T06:17:54Z) - On the Importance of Local Information in Transformer Based Models [19.036044858449593]
自己保持モジュールはTransformerベースのモデルのキーコンポーネントである。
最近の研究では、これらの頭は統語的、意味的、または局所的な行動を示すことが示されている。
その結果, 頭部の局所性バイアスは, 統語的バイアスに比べて大きいことが判明した。
論文 参考訳(メタデータ) (2020-08-13T11:32:47Z) - Detecting Human-Object Interactions with Action Co-occurrence Priors [108.31956827512376]
人-物間相互作用(HOI)検出タスクにおける一般的な問題は、多数のHOIクラスが少数のラベル付き例しか持たないことである。
我々は、人間と物体の相互作用の間に自然の相関と反相関が存在することを観察した。
我々はこれらの先行知識を学習し、特に稀なクラスにおいてより効果的な訓練に活用する手法を提案する。
論文 参考訳(メタデータ) (2020-07-17T02:47:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。