論文の概要: Measuring the Mixing of Contextual Information in the Transformer
- arxiv url: http://arxiv.org/abs/2203.04212v1
- Date: Tue, 8 Mar 2022 17:21:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 14:29:05.253924
- Title: Measuring the Mixing of Contextual Information in the Transformer
- Title(参考訳): 変圧器における文脈情報の混合の測定
- Authors: Javier Ferrando, Gerard I. G\'allego and Marta R. Costa-juss\`a
- Abstract要約: 注意ブロック - 複数頭部の注意、残差接続、および層正規化 - を考慮し、トークンとトークンの相互作用を測定するための計量を定義する。
次に,階層的な解釈を集約し,モデル予測のための入力属性スコアを提供する。
実験により,本手法は忠実な説明を提供し,類似のアグリゲーション法より優れていることを示す。
- 参考スコア(独自算出の注目度): 0.19116784879310028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Transformer architecture aggregates input information through the
self-attention mechanism, but there is no clear understanding of how this
information is mixed across the entire model. Additionally, recent works have
demonstrated that attention weights alone are not enough to describe the flow
of information. In this paper, we consider the whole attention block
--multi-head attention, residual connection, and layer normalization-- and
define a metric to measure token-to-token interactions within each layer,
considering the characteristics of the representation space. Then, we aggregate
layer-wise interpretations to provide input attribution scores for model
predictions. Experimentally, we show that our method, ALTI (Aggregation of
Layer-wise Token-to-token Interactions), provides faithful explanations and
outperforms similar aggregation methods.
- Abstract(参考訳): トランスフォーマーアーキテクチャは、セルフアテンション機構を通じて入力情報を集約するが、この情報がモデル全体にどのように混ざっているかを明確に理解していない。
さらに、近年の研究では、注意重みだけでは情報の流れを記述するのに十分でないことが示されている。
本稿では, 各層におけるトークン間相互作用を測定するための指標を, 表現空間の特性を考慮し, マルチヘッド・アテンション, 残差接続, レイヤ正規化の全体について考察する。
次に,階層的な解釈を集約し,モデル予測のための入力属性スコアを提供する。
実験により,本手法であるalti ( layer-wise token-token interaction の集約) が,忠実な説明を提供し,類似の凝集法を上回ることを示した。
関連論文リスト
- Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Unifying Feature and Cost Aggregation with Transformers for Semantic and Visual Correspondence [51.54175067684008]
本稿では,高密度マッチングタスク用に設計されたTransformerベースの積分機能とコスト集約ネットワークを提案する。
まず, 特徴集約とコスト集約が異なる特徴を示し, 双方の集約プロセスの司法的利用から生じる実質的な利益の可能性を明らかにした。
本フレームワークは意味マッチングのための標準ベンチマークで評価され,また幾何マッチングにも適用された。
論文 参考訳(メタデータ) (2024-03-17T07:02:55Z) - Quantifying Context Mixing in Transformers [13.98583981770322]
自己注意重みとその変換された変種は、トランスフォーマーモデルにおけるトークンとトークンの相互作用を分析するための主要な情報源となっている。
本稿では,トランスフォーマー用にカスタマイズされた新しいコンテキスト混合スコアであるValue Zeroingを提案する。
論文 参考訳(メタデータ) (2023-01-30T15:19:02Z) - Integrative Feature and Cost Aggregation with Transformers for Dense
Correspondence [63.868905184847954]
現在の最先端はTransformerベースのアプローチで、機能記述子やコストボリュームアグリゲーションに重点を置いている。
本稿では,両形態のアグリゲーションを相互にインターリーブするトランスフォーマーネットワークを提案する。
提案手法が密マッチングタスクに与える影響を評価し,全ての主要なベンチマークで最先端性能を実現する。
論文 参考訳(メタデータ) (2022-09-19T03:33:35Z) - Augmenting Convolutional networks with attention-based aggregation [55.97184767391253]
我々は,非局所的推論を実現するために,注目に基づくグローバルマップを用いた畳み込みネットワークの強化方法を示す。
この学習集約層を2つのパラメータ(幅と深さ)でパラメータ化した単純パッチベースの畳み込みネットワークで接続する。
これは、特にメモリ消費の点で、精度と複雑さの間の驚くほど競争力のあるトレードオフをもたらす。
論文 参考訳(メタデータ) (2021-12-27T14:05:41Z) - Rethinking Global Context in Crowd Counting [70.54184500538338]
純粋な変換器は、重なり合う画像パッチからグローバル情報で特徴を抽出するために用いられる。
分類によってインスピレーションを得て、入力シーケンスにコンテキストトークンを追加し、画像パッチに対応するトークンと情報交換を容易にする。
論文 参考訳(メタデータ) (2021-05-23T12:44:27Z) - Quantifying Attention Flow in Transformers [12.197250533100283]
自己注意(self-attention)"は、出席した埋め込みからの情報を次の層への焦点埋め込みの表現に結合する。
これにより、説明プローブとして注意重みが信頼できない。
本稿では,注目重み,注目ロールアウト,注目フローを付加した入力トークンへの注意を近似する2つの手法を提案する。
論文 参考訳(メタデータ) (2020-05-02T21:45:27Z) - Self-Attention Attribution: Interpreting Information Interactions Inside
Transformer [89.21584915290319]
本稿では,トランスフォーマー内の情報相互作用を解釈する自己帰属属性法を提案する。
本研究は,BERT に対する非目標攻撃の実装において,その属性を敵対パターンとして用いることができることを示す。
論文 参考訳(メタデータ) (2020-04-23T14:58:22Z) - Telling BERT's full story: from Local Attention to Global Aggregation [14.92157586545743]
トランスアーキテクチャにおける自己注意型ヘッドの挙動を深く検討する。
いずれにせよ,注目分布は,注目頭部の局所行動に関する洞察を与えることができることを示す。
論文 参考訳(メタデータ) (2020-04-10T01:36:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。