論文の概要: Influence Patterns for Explaining Information Flow in BERT
- arxiv url: http://arxiv.org/abs/2011.00740v3
- Date: Wed, 1 Dec 2021 03:04:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 11:47:45.717491
- Title: Influence Patterns for Explaining Information Flow in BERT
- Title(参考訳): BERTにおける情報の流れ説明における影響パターン
- Authors: Kaiji Lu, Zifan Wang, Piotr Mardziel, Anupam Datta
- Abstract要約: 本稿では,変換器モデルによる影響パターン,経路の集合の抽象化を紹介する。
BERTにおける情報フローのかなりの部分は、アテンションヘッドの代わりにスキップ接続を通していることがわかった。
- 参考スコア(独自算出の注目度): 23.06248927839962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While attention is all you need may be proving true, we do not know why:
attention-based transformer models such as BERT are superior but how
information flows from input tokens to output predictions are unclear. We
introduce influence patterns, abstractions of sets of paths through a
transformer model. Patterns quantify and localize the flow of information to
paths passing through a sequence of model nodes. Experimentally, we find that
significant portion of information flow in BERT goes through skip connections
instead of attention heads. We further show that consistency of patterns across
instances is an indicator of BERT's performance. Finally, We demonstrate that
patterns account for far more model performance than previous attention-based
and layer-based methods.
- Abstract(参考訳): BERTのような注意ベースのトランスフォーマーモデルは優れているが、入力トークンから出力予測への情報の流れは不明確である。
トランスフォーマーモデルを通じて,影響パターン,パス集合の抽象化を導入する。
パターンは、モデルノードのシーケンスを通過するパスへの情報の流れを定量化し、局所化する。
実験により,BERTにおける情報フローのかなりの部分は,注意頭の代わりにスキップ接続を通していることがわかった。
さらに、インスタンス間のパターンの一貫性がBERTのパフォーマンスの指標であることを示す。
最後に,パターンが従来のアテンションベースおよびレイヤベースメソッドよりもはるかに多くのモデルパフォーマンスを担っていることを示す。
関連論文リスト
- VISIT: Visualizing and Interpreting the Semantic Information Flow of
Transformers [45.42482446288144]
近年の解釈可能性の進歩は、トランスフォーマーベース言語モデルの重みと隠れ状態を語彙に投影できることを示唆している。
LMアテンションヘッドとメモリ値、モデルが与えられた入力を処理しながら動的に生成し、リコールするベクトルについて検討する。
対話型フローグラフとして生成事前学習変換器(GPT)の前方通過を可視化するツールを作成する。
論文 参考訳(メタデータ) (2023-05-22T19:04:56Z) - What does Transformer learn about source code? [26.674180481543264]
トランスをベースとした表現モデルは、多くのタスクで最先端(SOTA)のパフォーマンスを達成した。
本稿では,変換器が学習した構造情報を調べる手法であるアグリゲートアテンションスコアを提案する。
また、事前学習したモデルからプログラムグラフを自動的に抽出する新しい方法である、集約されたアテンショングラフも提案した。
論文 参考訳(メタデータ) (2022-07-18T09:33:04Z) - Hybrid Routing Transformer for Zero-Shot Learning [83.64532548391]
本稿ではハイブリッド・ルーティング・トランス (HRT) と呼ばれる新しいトランス・デコーダモデルを提案する。
ボトムアップとトップダウンの動的ルーティング経路の両方で構築されたアクティブアテンションを組み込んで,属性に整合した視覚的特徴を生成する。
HRTデコーダでは,属性対応の視覚特徴,対応する属性セマンティクス,およびクラス属性ベクトル間の相関関係を静的なルーティングで計算し,最終クラスラベルの予測を生成する。
論文 参考訳(メタデータ) (2022-03-29T07:55:08Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - Transformer Feed-Forward Layers Are Key-Value Memories [49.52087581977751]
トランス言語モデルにおけるフィードフォワード層がキーバリューメモリとして動作することを示す。
学習したパターンは人間と解釈可能であり、下層は浅いパターンをキャプチャする傾向にあり、上層はセマンティックなパターンを学ぶ傾向にある。
論文 参考訳(メタデータ) (2020-12-29T19:12:05Z) - Inserting Information Bottlenecks for Attribution in Transformers [46.77580577396633]
ブラックボックスモデルにおける各特徴のアトリビューションを分析するために,情報ボトルネックを適用した。
本手法の有効性を帰属性の観点から示し,情報がどのように層を流れるのかを考察する。
論文 参考訳(メタデータ) (2020-12-27T00:35:43Z) - VisBERT: Hidden-State Visualizations for Transformers [66.86452388524886]
VisBERTは,複数の質問応答のタスクに対して,BERT内のコンテキストトークン表現を可視化するツールである。
VisBERTは、モデルの内部状態に関する洞察を得て、推論ステップや潜在的な欠点を探索することを可能にする。
論文 参考訳(メタデータ) (2020-11-09T15:37:43Z) - Quantifying Attention Flow in Transformers [12.197250533100283]
自己注意(self-attention)"は、出席した埋め込みからの情報を次の層への焦点埋め込みの表現に結合する。
これにより、説明プローブとして注意重みが信頼できない。
本稿では,注目重み,注目ロールアウト,注目フローを付加した入力トークンへの注意を近似する2つの手法を提案する。
論文 参考訳(メタデータ) (2020-05-02T21:45:27Z) - Self-Attention Attribution: Interpreting Information Interactions Inside
Transformer [89.21584915290319]
本稿では,トランスフォーマー内の情報相互作用を解釈する自己帰属属性法を提案する。
本研究は,BERT に対する非目標攻撃の実装において,その属性を敵対パターンとして用いることができることを示す。
論文 参考訳(メタデータ) (2020-04-23T14:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。