論文の概要: Quantifying Context Mixing in Transformers
- arxiv url: http://arxiv.org/abs/2301.12971v1
- Date: Mon, 30 Jan 2023 15:19:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 14:15:43.260065
- Title: Quantifying Context Mixing in Transformers
- Title(参考訳): 変圧器におけるコンテキスト混合の定量化
- Authors: Hosein Mohebbi, Willem Zuidema, Grzegorz Chrupa{\l}a, Afra Alishahi
- Abstract要約: 自己注意重みとその変換された変種は、トランスフォーマーモデルにおけるトークンとトークンの相互作用を分析するための主要な情報源となっている。
本稿では,トランスフォーマー用にカスタマイズされた新しいコンテキスト混合スコアであるValue Zeroingを提案する。
- 参考スコア(独自算出の注目度): 13.98583981770322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-attention weights and their transformed variants have been the main
source of information for analyzing token-to-token interactions in
Transformer-based models. But despite their ease of interpretation, these
weights are not faithful to the models' decisions as they are only one part of
an encoder, and other components in the encoder layer can have considerable
impact on information mixing in the output representations. In this work, by
expanding the scope of analysis to the whole encoder block, we propose Value
Zeroing, a novel context mixing score customized for Transformers that provides
us with a deeper understanding of how information is mixed at each encoder
layer. We demonstrate the superiority of our context mixing score over other
analysis methods through a series of complementary evaluations with different
viewpoints based on linguistically informed rationales, probing, and
faithfulness analysis.
- Abstract(参考訳): 自己付着重みとその変形型は、トランスフォーマーモデルにおけるトークンとトケンの相互作用を分析するための主要な情報源となっている。
しかし、解釈の容易さにもかかわらず、これらの重みはエンコーダの一部に過ぎないため、モデルの決定に忠実ではなく、エンコーダ層の他のコンポーネントは出力表現における情報混合に大きな影響を与える可能性がある。
本稿では,解析範囲をエンコーダブロック全体に拡大することにより,トランスフォーマ用にカスタマイズされた新たなコンテキスト混合スコアであるvalue zeroingを提案する。
本稿では,言語学的に有意な合理性,探索性,忠実性分析に基づいて,異なる視点の補完的評価を行い,他の分析手法よりも文脈混合スコアの優位を示す。
関連論文リスト
- Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - Understanding Addition in Transformers [2.07180164747172]
本稿では,n桁整数加算を行うために訓練された1層トランスフォーマーモデルの包括的解析を行う。
提案手法は,各桁を対象とする並列ストリームに分割し,各桁の異なる位置に合わせて最適化されたアルゴリズムを用いることを示唆している。
論文 参考訳(メタデータ) (2023-10-19T19:34:42Z) - DecoderLens: Layerwise Interpretation of Encoder-Decoder Transformers [6.405360669408265]
本稿では,エンコーダ・デコーダ変換器を簡易に解析する手法を提案する。
LogitLens(デコーダのみのトランスフォーマー)にインスパイアされたこの手法では、デコーダが中間エンコーダ層を横断的に表現できるようにする。
質問応答,論理的推論,音声認識,機械翻訳を訓練したモデルに適用したDecoderLensの結果を報告する。
論文 参考訳(メタデータ) (2023-10-05T17:04:59Z) - GlobEnc: Quantifying Global Token Attribution by Incorporating the Whole
Encoder Layer in Transformers [19.642769560417904]
本稿では,エンコーダブロックにすべてのコンポーネントを組み込んだ新しいトークン属性解析手法を提案する。
実験の結果,ほぼすべてのエンコーダコンポーネントを組み込むことで,ローカルとグローバルの両方でより正確な分析が可能であることが判明した。
論文 参考訳(メタデータ) (2022-05-06T15:13:34Z) - Measuring the Mixing of Contextual Information in the Transformer [0.19116784879310028]
注意ブロック - 複数頭部の注意、残差接続、および層正規化 - を考慮し、トークンとトークンの相互作用を測定するための計量を定義する。
次に,階層的な解釈を集約し,モデル予測のための入力属性スコアを提供する。
実験により,本手法は忠実な説明を提供し,類似のアグリゲーション法より優れていることを示す。
論文 参考訳(メタデータ) (2022-03-08T17:21:27Z) - Incorporating Residual and Normalization Layers into Analysis of Masked
Language Models [29.828669678974983]
我々は、トランスフォーマーの分析範囲を、単に注目パターンから注目ブロック全体まで拡張する。
トランスフォーマーをベースとしたマスキング言語モデルの解析により,トークンとトークンの相互作用が従来想定されていた中間表現にほとんど影響を与えないことが分かる。
論文 参考訳(メタデータ) (2021-09-15T08:32:20Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - Analyzing the Source and Target Contributions to Predictions in Neural
Machine Translation [97.22768624862111]
生成プロセスに対するソースとターゲットの相対的コントリビューションを明確に評価するNMTモデルを解析する。
より多くのデータでトレーニングされたモデルは、ソース情報に依存しやすく、よりシャープなトークンコントリビューションを持つ傾向にあります。
論文 参考訳(メタデータ) (2020-10-21T11:37:27Z) - On the Sub-Layer Functionalities of Transformer Decoder [74.83087937309266]
トランスフォーマーをベースとしたデコーダは,ソースおよびターゲット言語からの情報をいかに活用するかを検討する。
これらの知見に基づき,各トランスフォーマーデコーダ層内の残フィードフォワードモジュールは,性能の低下を最小限に抑えられることを示した。
論文 参考訳(メタデータ) (2020-10-06T11:50:54Z) - Fixed Encoder Self-Attention Patterns in Transformer-Based Machine
Translation [73.11214377092121]
我々は,各エンコーダ層の注意頭数のみを,単純な固定型(非学習型)の注意パターンに置き換えることを提案する。
異なるデータサイズと複数の言語ペアを用いた実験により、トレーニング時にトランスフォーマーのエンコーダ側でアテンションヘッドを固定することは翻訳品質に影響を与えないことが示された。
論文 参考訳(メタデータ) (2020-02-24T13:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。