論文の概要: Telling BERT's full story: from Local Attention to Global Aggregation
- arxiv url: http://arxiv.org/abs/2004.05916v2
- Date: Wed, 13 Jan 2021 21:48:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 20:19:20.482253
- Title: Telling BERT's full story: from Local Attention to Global Aggregation
- Title(参考訳): BERTのフルストーリーを語る - ローカルアテンションからグローバルアグリゲーションへ
- Authors: Damian Pascual, Gino Brunner and Roger Wattenhofer
- Abstract要約: トランスアーキテクチャにおける自己注意型ヘッドの挙動を深く検討する。
いずれにせよ,注目分布は,注目頭部の局所行動に関する洞察を与えることができることを示す。
- 参考スコア(独自算出の注目度): 14.92157586545743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We take a deep look into the behavior of self-attention heads in the
transformer architecture. In light of recent work discouraging the use of
attention distributions for explaining a model's behavior, we show that
attention distributions can nevertheless provide insights into the local
behavior of attention heads. This way, we propose a distinction between local
patterns revealed by attention and global patterns that refer back to the
input, and analyze BERT from both angles. We use gradient attribution to
analyze how the output of an attention attention head depends on the input
tokens, effectively extending the local attention-based analysis to account for
the mixing of information throughout the transformer layers. We find that there
is a significant discrepancy between attention and attribution distributions,
caused by the mixing of context inside the model. We quantify this discrepancy
and observe that interestingly, there are some patterns that persist across all
layers despite the mixing.
- Abstract(参考訳): トランスフォーマーアーキテクチャにおけるセルフ・アテンション・ヘッドの挙動を深く検討する。
注意分布をモデル行動に用いていない最近の研究に照らして,注意分布は注意頭部の局所的行動に対する洞察を与えることができることを示した。
本研究では,注意によって明らかになった局所パターンと入力を参照するグローバルパターンの区別を提案し,両角度からbertの解析を行う。
グラデーション・アトリビューションを用いて,注意注目ヘッドの出力が入力トークンに依存するかを分析し,局部注意に基づく分析を効果的に拡張し,トランス層全体の情報の混合を考慮した。
モデル内の文脈の混合に起因する注意分布と帰属分布の間には大きな相違があることが判明した。
この相違を定量化し、興味深いことに、混合にもかかわらずすべての層に持続するパターンが存在することを観察します。
関連論文リスト
- Measuring the Mixing of Contextual Information in the Transformer [0.19116784879310028]
注意ブロック - 複数頭部の注意、残差接続、および層正規化 - を考慮し、トークンとトークンの相互作用を測定するための計量を定義する。
次に,階層的な解釈を集約し,モデル予測のための入力属性スコアを提供する。
実験により,本手法は忠実な説明を提供し,類似のアグリゲーション法より優れていることを示す。
論文 参考訳(メタデータ) (2022-03-08T17:21:27Z) - Boosting Crowd Counting via Multifaceted Attention [109.89185492364386]
大規模なバリエーションは、しばしば群衆画像の中に存在する。
CNNの固定サイズ畳み込みカーネルも、最近の視覚変換器の固定サイズアテンションも、このような変動には対処できない。
局所空間関係符号化におけるトランスフォーマーモデルを改善するための多面的注意ネットワーク(MAN)を提案する。
論文 参考訳(メタデータ) (2022-03-05T01:36:43Z) - Locally Shifted Attention With Early Global Integration [93.5766619842226]
本稿では,視覚変換器の初期層において,大域的相互作用と局所的相互作用の微粒化を可能にする手法を提案する。
CIFAR10, CIFAR100, ImageNetにおける画像分類において, 畳み込み法と変圧器法の両方よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-12-09T18:12:24Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - Is Sparse Attention more Interpretable? [52.85910570651047]
我々は,空間が注意力を説明可能性ツールとして活用する能力にどのように影響するかを検討する。
入力とインデックス付き中間表現の間には弱い関係しか存在しません。
この設定では、疎度を誘導することで、モデルの振る舞いを理解するためのツールとして注意が使用できることが、より確実になる可能性があることを観察する。
論文 参考訳(メタデータ) (2021-06-02T11:42:56Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - On the Importance of Local Information in Transformer Based Models [19.036044858449593]
自己保持モジュールはTransformerベースのモデルのキーコンポーネントである。
最近の研究では、これらの頭は統語的、意味的、または局所的な行動を示すことが示されている。
その結果, 頭部の局所性バイアスは, 統語的バイアスに比べて大きいことが判明した。
論文 参考訳(メタデータ) (2020-08-13T11:32:47Z) - Quantifying Attention Flow in Transformers [12.197250533100283]
自己注意(self-attention)"は、出席した埋め込みからの情報を次の層への焦点埋め込みの表現に結合する。
これにより、説明プローブとして注意重みが信頼できない。
本稿では,注目重み,注目ロールアウト,注目フローを付加した入力トークンへの注意を近似する2つの手法を提案する。
論文 参考訳(メタデータ) (2020-05-02T21:45:27Z) - Self-Attention Attribution: Interpreting Information Interactions Inside
Transformer [89.21584915290319]
本稿では,トランスフォーマー内の情報相互作用を解釈する自己帰属属性法を提案する。
本研究は,BERT に対する非目標攻撃の実装において,その属性を敵対パターンとして用いることができることを示す。
論文 参考訳(メタデータ) (2020-04-23T14:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。