論文の概要: Attention Flows for General Transformers
- arxiv url: http://arxiv.org/abs/2205.15389v1
- Date: Mon, 30 May 2022 19:12:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 14:55:51.487861
- Title: Attention Flows for General Transformers
- Title(参考訳): 一般変圧器の注意流
- Authors: Niklas Metzger, Christopher Hahn, Julian Siber, Frederik Schmitt,
Bernd Finkbeiner
- Abstract要約: 本研究では,エンコーダのみのトランスフォーマーモデルの注意値からフローネットワークを構築する手法を定式化する。
フローネットワーク構築における最大フローアルゴリズムの実行により,Shapleyの値が得られることを示す。
任意のTransformerモデルのアテンションフローを計算し視覚化するライブラリを提供する。
- 参考スコア(独自算出の注目度): 3.4123736336071864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the computation of how much an input token in a
Transformer model influences its prediction. We formalize a method to construct
a flow network out of the attention values of encoder-only Transformer models
and extend it to general Transformer architectures including an auto-regressive
decoder. We show that running a maxflow algorithm on the flow network
construction yields Shapley values, which determine the impact of a player in
cooperative game theory. By interpreting the input tokens in the flow network
as players, we can compute their influence on the total attention flow leading
to the decoder's decision. Additionally, we provide a library that computes and
visualizes the attention flow of arbitrary Transformer models. We show the
usefulness of our implementation on various models trained on natural language
processing and reasoning tasks.
- Abstract(参考訳): 本稿では,Transformerモデルにおける入力トークンが,その予測にどの程度影響するかを計算する。
本稿では,エンコーダのみのトランスフォーマーモデルの注目値からフローネットワークを構築する手法を定式化し,自動回帰デコーダを含む一般的なトランスフォーマーアーキテクチャに拡張する。
フローネットワーク構築における最大フローアルゴリズムの実行は,協調ゲーム理論におけるプレイヤーの影響を決定するShapley値が得られることを示す。
フローネットワーク内の入力トークンをプレイヤーとして解釈することにより、デコーダの決定につながる全注目フローへの影響を計算することができる。
さらに,任意のトランスフォーマーモデルのアテンションフローを計算し,可視化するライブラリを提供する。
自然言語処理と推論タスクを訓練した様々なモデルにおける実装の有用性を示す。
関連論文リスト
- On-Chip Learning via Transformer In-Context Learning [0.9353041869660692]
自己アテンションメカニズムでは、各ステップでメインメモリから事前トークンプロジェクションを転送する必要がある。
オンチップの塑性プロセッサを用いて自己注意を計算したニューロモルフィックデコーダのみのトランスモデルを提案する。
論文 参考訳(メタデータ) (2024-10-11T10:54:09Z) - Algorithmic Capabilities of Random Transformers [49.73113518329544]
埋め込み層のみを最適化したランダムトランスフォーマーによって、どのような関数が学習できるかを検討する。
これらのランダムなトランスフォーマーは、幅広い意味のあるアルゴリズムタスクを実行することができる。
以上の結果から,これらのモデルが訓練される前にも,アルゴリズム能力がトランスフォーマに存在することが示唆された。
論文 参考訳(メタデータ) (2024-10-06T06:04:23Z) - Transformers need glasses! Information over-squashing in language tasks [18.81066657470662]
復号器のみの変換器における情報伝達について検討する。
変換器への入力の特定のシーケンスは、最終的なトークンにおいて任意にクローズな表現が得られることを示す。
また,デコーダのみのトランスフォーマー言語モデルでは,入力中の特定のトークンに対する感度が低下することを示す。
論文 参考訳(メタデータ) (2024-06-06T17:14:44Z) - Quantum linear algebra is all you need for Transformer architectures [1.660288273261283]
フォールトトレラント量子コンピューティングのレンズ下でのトランスフォーマーアーキテクチャについて検討する。
我々は,ソフトマックス関数の行ワイド適用のための新しいサブルーチンを用いて,自己アテンション行列のブロック符号化の仕方を示す。
我々のサブルーチンは変換器出力の振幅エンコーディングを作成し、予測値を得るために測定することができる。
論文 参考訳(メタデータ) (2024-02-26T16:31:28Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - iTransformer: Inverted Transformers Are Effective for Time Series Forecasting [62.40166958002558]
iTransformerを提案する。これは、逆次元に注意とフィードフォワードのネットワークを単純に適用する。
iTransformerモデルは、挑戦的な現実世界のデータセットの最先端を実現する。
論文 参考訳(メタデータ) (2023-10-10T13:44:09Z) - Error Correction Code Transformer [92.10654749898927]
本稿では,トランスフォーマーアーキテクチャを任意のブロック長で線形符号のソフトデコードに拡張することを提案する。
我々は,各チャネルの出力次元を高次元に符号化し,個別に処理すべきビット情報のより良い表現を行う。
提案手法は、トランスフォーマーの極端なパワーと柔軟性を示し、既存の最先端のニューラルデコーダを、その時間的複雑さのごく一部で大きなマージンで上回る。
論文 参考訳(メタデータ) (2022-03-27T15:25:58Z) - Predicting Attention Sparsity in Transformers [0.9786690381850356]
本稿では, 遠心注意の空間パターンを計算前に同定するモデルであるスペーサーファインダーを提案する。
我々の研究は、予測された注目グラフの間隔とリコールの間のトレードオフを広範囲に分析することで、モデル効率を研究するための新しい角度を提供する。
論文 参考訳(メタデータ) (2021-09-24T20:51:21Z) - Thinking Like Transformers [64.96770952820691]
本稿では,プログラミング言語の形式で変換器エンコーダの計算モデルを提案する。
RASPは、トランスフォーマーによって確実に学習できるタスクの解決策をプログラムするのにどのように使えるかを示す。
ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。
論文 参考訳(メタデータ) (2021-06-13T13:04:46Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。