論文の概要: The heads hypothesis: A unifying statistical approach towards
understanding multi-headed attention in BERT
- arxiv url: http://arxiv.org/abs/2101.09115v1
- Date: Fri, 22 Jan 2021 14:10:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-20 17:32:16.161251
- Title: The heads hypothesis: A unifying statistical approach towards
understanding multi-headed attention in BERT
- Title(参考訳): 頭部仮説:BERTにおける多面的注意理解への統一統計的アプローチ
- Authors: Madhura Pande, Aakriti Budhraja, Preksha Nema, Pratyush Kumar and
Mitesh M. Khapra
- Abstract要約: マルチヘッドアテンションヘッドはトランスベースのモデルにおける主役です。
対向きの注目度の高いトークン間の関係に基づいて、各注意ヘッドの役割を分類する異なる方法が提案されている。
我々は,注意ヘッドのすべての役割に一般化する単純かつ効果的なスコアを定式化し,このスコアに仮説テストを適用してロバストな推論を行う。
- 参考スコア(独自算出の注目度): 18.13834903235249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-headed attention heads are a mainstay in transformer-based models.
Different methods have been proposed to classify the role of each attention
head based on the relations between tokens which have high pair-wise attention.
These roles include syntactic (tokens with some syntactic relation), local
(nearby tokens), block (tokens in the same sentence) and delimiter (the special
[CLS], [SEP] tokens). There are two main challenges with existing methods for
classification: (a) there are no standard scores across studies or across
functional roles, and (b) these scores are often average quantities measured
across sentences without capturing statistical significance. In this work, we
formalize a simple yet effective score that generalizes to all the roles of
attention heads and employs hypothesis testing on this score for robust
inference. This provides us the right lens to systematically analyze attention
heads and confidently comment on many commonly posed questions on analyzing the
BERT model. In particular, we comment on the co-location of multiple functional
roles in the same attention head, the distribution of attention heads across
layers, and effect of fine-tuning for specific NLP tasks on these functional
roles.
- Abstract(参考訳): マルチヘッドアテンションヘッドは、トランスフォーマーベースモデルのメインステイである。
対方向の注意度が高いトークン間の関係に基づいて各注意ヘッドの役割を分類するために異なる方法が提案されている。
これらの役割には、構文(いくつかの構文的関係を持つトークン)、局所(近傍トークン)、ブロック(同じ文のトークン)、デリミタ(特別な[CLS]、[SEP]トークン)が含まれる。
既存の分類法には2つの大きな課題がある: (a) 研究や機能的役割に標準スコアがない; (b) 統計学的意義を捉えずに、文全体で測定された平均スコアであることが多い。
本研究では,注意ヘッドのすべての役割を一般化する単純かつ効果的なスコアを定式化し,このスコアに仮説テストを適用してロバストな推論を行う。
これにより、注意ヘッドを体系的に分析し、BERTモデルの解析に関する多くの一般的な疑問に自信を持ってコメントできる適切なレンズが提供されます。
特に,同一のアテンションヘッドにおける複数の機能的役割の同時配置,レイヤ間のアテンションヘッドの分布,特定のNLPタスクの微調整が機能的役割に与える影響について述べる。
関連論文リスト
- Active and Passive Causal Inference Learning [51.91564516458894]
本稿では,因果推論に関心を持つ機械学習研究者,技術者,学生の出発点となる。
まず、因果同定に総合的に必要とされる重要な仮定のセットを配置することから始めます。
私たちは、それらを2つのバケット、アクティブとパッシブのアプローチに分類することで、重要な因果推論テクニックのセットを構築します。
論文 参考訳(メタデータ) (2023-08-18T02:23:48Z) - Function Composition in Trustworthy Machine Learning: Implementation
Choices, Insights, and Questions [28.643482049799477]
本稿では,信頼感の異なる「柱」から生じる機能の構成に焦点を当てる。
実世界の信頼に値する7つの次元 - 公正さと説明可能性 - に関する実験結果と新たな知見を報告する。
また,複数の柱からの機能の組み合わせを促すために,作曲家ツールの進捗状況と実装選択について報告する。
論文 参考訳(メタデータ) (2023-02-17T23:49:16Z) - Analysis of Self-Attention Head Diversity for Conformer-based Automatic
Speech Recognition [36.53453860656191]
頭部の多様性を高めるためのアプローチについて検討する。
トレーニング中に多様性を促進させる補助的損失関数を導入することは、より効果的なアプローチであることを示す。
最後に,アテンションヘッドの多様性と,頭部パラメータの勾配の類似性とを関連づける。
論文 参考訳(メタデータ) (2022-09-13T15:50:03Z) - A Song of (Dis)agreement: Evaluating the Evaluation of Explainable
Artificial Intelligence in Natural Language Processing [7.527234046228323]
我々は、注意に基づく説明のための評価指標としてランク相関を用いるのをやめるべきであると主張している。
注意に基づく説明は,最近の特徴帰属法と強く相関しないことがわかった。
論文 参考訳(メタデータ) (2022-05-09T21:07:39Z) - Compositional Attention: Disentangling Search and Retrieval [66.7108739597771]
Multi-head, key-value attention は Transformer モデルとそのバリエーションのバックボーンである。
標準的なアテンションヘッドは、検索と検索の間の厳密なマッピングを学ぶ。
本稿では,標準ヘッド構造を置き換える新しいアテンション機構であるコンポジションアテンションアテンションを提案する。
論文 参考訳(メタデータ) (2021-10-18T15:47:38Z) - ACP++: Action Co-occurrence Priors for Human-Object Interaction
Detection [102.9428507180728]
ヒューマン・オブジェクト・インタラクション(HOI)検出のタスクにおける一般的な問題は、多数のHOIクラスが少数のラベル付き例しか持たないことである。
我々は、人間と物体の相互作用の間に自然の相関関係と反相関が存在することを観察した。
我々は、これらの先行知識を学習し、特に稀なクラスにおいて、より効果的な訓練に活用する手法を提案する。
論文 参考訳(メタデータ) (2021-09-09T06:02:50Z) - Understanding Attention in Machine Reading Comprehension [56.72165932439117]
本稿では,多面的自己意識と最終的なパフォーマンスとの関係を検討するために,一連の分析実験を実施することに焦点を当てる。
SQuAD(英語)とCMRC 2018(中国語)の定量的解析を行い、BERT, ALBERT, ELECTRAの2つのスパン抽出MCCデータセットについて検討した。
本研究は, 問合せ及び問合せに対する注意が最重要であり, 最終結果と強い相関関係を示すものであることを明らかにする。
論文 参考訳(メタデータ) (2021-08-26T04:23:57Z) - Nested Counterfactual Identification from Arbitrary Surrogate
Experiments [95.48089725859298]
観測と実験の任意の組み合わせからネスト反事実の同定について検討した。
具体的には、任意のネストされた反事実を非ネストされたものへ写像できる反ファクト的非ネスト定理(英語版)(CUT)を証明する。
論文 参考訳(メタデータ) (2021-07-07T12:51:04Z) - Multi-Head Self-Attention with Role-Guided Masks [20.955992710112216]
本稿では,先行作業における役割を重要視する上での注意を導く手法を提案する。
これを行うには、入力の特定の部分に出席する頭を制限する役割固有のマスクを定義します。
7つの異なるデータセットを用いたテキスト分類と機械翻訳の実験により,本手法が競合注意ベース,CNN,RNNベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2020-12-22T21:34:02Z) - On the Importance of Local Information in Transformer Based Models [19.036044858449593]
自己保持モジュールはTransformerベースのモデルのキーコンポーネントである。
最近の研究では、これらの頭は統語的、意味的、または局所的な行動を示すことが示されている。
その結果, 頭部の局所性バイアスは, 統語的バイアスに比べて大きいことが判明した。
論文 参考訳(メタデータ) (2020-08-13T11:32:47Z) - Detecting Human-Object Interactions with Action Co-occurrence Priors [108.31956827512376]
人-物間相互作用(HOI)検出タスクにおける一般的な問題は、多数のHOIクラスが少数のラベル付き例しか持たないことである。
我々は、人間と物体の相互作用の間に自然の相関と反相関が存在することを観察した。
我々はこれらの先行知識を学習し、特に稀なクラスにおいてより効果的な訓練に活用する手法を提案する。
論文 参考訳(メタデータ) (2020-07-17T02:47:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。