Fugu-MT 論文翻訳(概要): The heads hypothesis: A unifying statistical approach towards understanding multi-headed attention in BERT

論文の概要: The heads hypothesis: A unifying statistical approach towards understanding multi-headed attention in BERT

arxiv url: http://arxiv.org/abs/2101.09115v1
Date: Fri, 22 Jan 2021 14:10:59 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-20 17:32:16.161251
Title: The heads hypothesis: A unifying statistical approach towards understanding multi-headed attention in BERT
Title（参考訳）: 頭部仮説:BERTにおける多面的注意理解への統一統計的アプローチ
Authors: Madhura Pande, Aakriti Budhraja, Preksha Nema, Pratyush Kumar and Mitesh M. Khapra
Abstract要約: マルチヘッドアテンションヘッドはトランスベースのモデルにおける主役です。対向きの注目度の高いトークン間の関係に基づいて、各注意ヘッドの役割を分類する異なる方法が提案されている。我々は,注意ヘッドのすべての役割に一般化する単純かつ効果的なスコアを定式化し,このスコアに仮説テストを適用してロバストな推論を行う。
参考スコア（独自算出の注目度）: 18.13834903235249
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-headed attention heads are a mainstay in transformer-based models. Different methods have been proposed to classify the role of each attention head based on the relations between tokens which have high pair-wise attention. These roles include syntactic (tokens with some syntactic relation), local (nearby tokens), block (tokens in the same sentence) and delimiter (the special [CLS], [SEP] tokens). There are two main challenges with existing methods for classification: (a) there are no standard scores across studies or across functional roles, and (b) these scores are often average quantities measured across sentences without capturing statistical significance. In this work, we formalize a simple yet effective score that generalizes to all the roles of attention heads and employs hypothesis testing on this score for robust inference. This provides us the right lens to systematically analyze attention heads and confidently comment on many commonly posed questions on analyzing the BERT model. In particular, we comment on the co-location of multiple functional roles in the same attention head, the distribution of attention heads across layers, and effect of fine-tuning for specific NLP tasks on these functional roles.
Abstract（参考訳）: マルチヘッドアテンションヘッドは、トランスフォーマーベースモデルのメインステイである。対方向の注意度が高いトークン間の関係に基づいて各注意ヘッドの役割を分類するために異なる方法が提案されている。これらの役割には、構文(いくつかの構文的関係を持つトークン)、局所(近傍トークン)、ブロック(同じ文のトークン)、デリミタ(特別な[CLS]、[SEP]トークン)が含まれる。既存の分類法には2つの大きな課題がある: (a) 研究や機能的役割に標準スコアがない; (b) 統計学的意義を捉えずに、文全体で測定された平均スコアであることが多い。本研究では,注意ヘッドのすべての役割を一般化する単純かつ効果的なスコアを定式化し,このスコアに仮説テストを適用してロバストな推論を行う。これにより、注意ヘッドを体系的に分析し、BERTモデルの解析に関する多くの一般的な疑問に自信を持ってコメントできる適切なレンズが提供されます。特に,同一のアテンションヘッドにおける複数の機能的役割の同時配置,レイヤ間のアテンションヘッドの分布,特定のNLPタスクの微調整が機能的役割に与える影響について述べる。

関連論文リスト

Using Attention Sinks to Identify and Evaluate Dormant Heads in Pretrained LLMs [77.43913758420948]
本稿では,入眠注意頭として知られる注意シンクに支配される注意頭について,新たな定義を提案する。モデルのアテンションヘッドの4%以上が平均精度を維持しながらゼロにすることができる。休眠頭は前訓練の早期に出現し、前訓練中に休眠状態と活動状態の間で遷移する。
論文参考訳（メタデータ） (2025-04-04T19:28:23Z)
Enforcing Fundamental Relations via Adversarial Attacks on Input Parameter Correlations [76.2226569692207]
入力パラメータ間の相関は、多くの科学的分類タスクにおいて重要な役割を果たす。我々はRandom Distribution Shuffle Attack (RDSA)と呼ばれる新たな敵攻撃アルゴリズムを提案する。 6つの分類課題においてRDSAの有効性を示す。
論文参考訳（メタデータ） (2025-01-09T21:45:09Z)
Inferring Functionality of Attention Heads from their Parameters [12.913172023910203]
本稿では,モデルトレーニングや推論を伴わずに,そのパラメータから注目点の機能を推定するフレームワークを提案する。 6大言語モデル(LLM)における20の操作に対するMAPSの評価を行った。我々のパイプラインは、人間の判断によって評価されるように、ほとんどの頭部に対して、多彩な操作記述を生成しながら、多様な操作を明らかにします。
論文参考訳（メタデータ） (2024-12-16T16:45:33Z)
Towards Interpreting Language Models: A Case Study in Multi-Hop Reasoning [0.0]
言語モデル(LM)は、一貫してマルチホップ推論を行うのに苦労する。本稿では,LMアテンションヘッド上のターゲットメモリ注入によるマルチホップ推論障害をピンポイントし,修正する手法を提案する。
論文参考訳（メタデータ） (2024-11-06T16:30:26Z)
Disentangling Interactions and Dependencies in Feature Attribution [9.442326245744916]
機械学習において、グローバルな特徴重要度法は、対象変数の予測に個々の特徴がどの程度貢献するかを判断しようとする。一般的に用いられる特徴重要度スコアでは、これらの協調効果は特徴の個々の貢献と混同される。 DIPは、3つの成分をアンタングルする個々の特徴重要度スコアを数学的に分解する。
論文参考訳（メタデータ） (2024-10-31T09:41:10Z)
An Analysis of Attention via the Lens of Exchangeability and Latent Variable Models [64.87562101662952]
入力トークンは、位置エンコーディングを含むため、しばしば交換可能であることを示す。我々は入力トークンの十分かつ最小限の表現の存在を確立する。所望パラメータの注意が近似誤差まで潜伏した後部を推定することを証明する。
論文参考訳（メタデータ） (2022-12-30T17:59:01Z)
Analysis of Self-Attention Head Diversity for Conformer-based Automatic Speech Recognition [36.53453860656191]
頭部の多様性を高めるためのアプローチについて検討する。トレーニング中に多様性を促進させる補助的損失関数を導入することは、より効果的なアプローチであることを示す。最後に,アテンションヘッドの多様性と,頭部パラメータの勾配の類似性とを関連づける。
論文参考訳（メタデータ） (2022-09-13T15:50:03Z)
A Song of (Dis)agreement: Evaluating the Evaluation of Explainable Artificial Intelligence in Natural Language Processing [7.527234046228323]
我々は、注意に基づく説明のための評価指標としてランク相関を用いるのをやめるべきであると主張している。注意に基づく説明は,最近の特徴帰属法と強く相関しないことがわかった。
論文参考訳（メタデータ） (2022-05-09T21:07:39Z)
Compositional Attention: Disentangling Search and Retrieval [66.7108739597771]
Multi-head, key-value attention は Transformer モデルとそのバリエーションのバックボーンである。標準的なアテンションヘッドは、検索と検索の間の厳密なマッピングを学ぶ。本稿では,標準ヘッド構造を置き換える新しいアテンション機構であるコンポジションアテンションアテンションを提案する。
論文参考訳（メタデータ） (2021-10-18T15:47:38Z)
ACP++: Action Co-occurrence Priors for Human-Object Interaction Detection [102.9428507180728]
ヒューマン・オブジェクト・インタラクション(HOI)検出のタスクにおける一般的な問題は、多数のHOIクラスが少数のラベル付き例しか持たないことである。我々は、人間と物体の相互作用の間に自然の相関関係と反相関が存在することを観察した。我々は、これらの先行知識を学習し、特に稀なクラスにおいて、より効果的な訓練に活用する手法を提案する。
論文参考訳（メタデータ） (2021-09-09T06:02:50Z)
Nested Counterfactual Identification from Arbitrary Surrogate Experiments [95.48089725859298]
観測と実験の任意の組み合わせからネスト反事実の同定について検討した。具体的には、任意のネストされた反事実を非ネストされたものへ写像できる反ファクト的非ネスト定理(英語版)(CUT)を証明する。
論文参考訳（メタデータ） (2021-07-07T12:51:04Z)
Learning with Instance Bundles for Reading Comprehension [61.823444215188296]
質問応答スコアを複数の関連インスタンスで比較する新しい監視手法を提案する。具体的には、密接に対照的な質問や回答のさまざまな近所でこれらのスコアを正規化します。 2つのデータセット上のインスタンスバンドルによるトレーニングの有効性を実証的に実証する。
論文参考訳（メタデータ） (2021-04-18T06:17:54Z)
On the Importance of Local Information in Transformer Based Models [19.036044858449593]
自己保持モジュールはTransformerベースのモデルのキーコンポーネントである。最近の研究では、これらの頭は統語的、意味的、または局所的な行動を示すことが示されている。その結果, 頭部の局所性バイアスは, 統語的バイアスに比べて大きいことが判明した。
論文参考訳（メタデータ） (2020-08-13T11:32:47Z)
Detecting Human-Object Interactions with Action Co-occurrence Priors [108.31956827512376]
人-物間相互作用(HOI)検出タスクにおける一般的な問題は、多数のHOIクラスが少数のラベル付き例しか持たないことである。我々は、人間と物体の相互作用の間に自然の相関と反相関が存在することを観察した。我々はこれらの先行知識を学習し、特に稀なクラスにおいてより効果的な訓練に活用する手法を提案する。
論文参考訳（メタデータ） (2020-07-17T02:47:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。