論文の概要: Sparse Attention Decomposition Applied to Circuit Tracing
- arxiv url: http://arxiv.org/abs/2410.00340v2
- Date: Mon, 28 Oct 2024 21:54:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 06:16:28.740313
- Title: Sparse Attention Decomposition Applied to Circuit Tracing
- Title(参考訳): 回路トラクションに応用したスパースアテンション分解
- Authors: Gabriel Franco, Mark Crovella,
- Abstract要約: 本研究は,GPT-2小人数の注目者間のコミュニケーションと協調に有効な特徴を抽出し,同定することを目的とする。
Indirect Object Identification (IOI) タスクに使用する場合, GPT-2 小さめの注意頭におけるこれらの信号の寸法と発生を特徴付ける。
以上の結果から, GPT-2における冗長経路の性質に光を当てることにより, 従来研究には存在しなかった細部が明らかとなった。
- 参考スコア(独自算出の注目度): 6.906005491572401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many papers have shown that attention heads work in conjunction with each other to perform complex tasks. It's frequently assumed that communication between attention heads is via the addition of specific features to token residuals. In this work we seek to isolate and identify the features used to effect communication and coordination among attention heads in GPT-2 small. Our key leverage on the problem is to show that these features are very often sparsely coded in the singular vectors of attention head matrices. We characterize the dimensionality and occurrence of these signals across the attention heads in GPT-2 small when used for the Indirect Object Identification (IOI) task. The sparse encoding of signals, as provided by attention head singular vectors, allows for efficient separation of signals from the residual background and straightforward identification of communication paths between attention heads. We explore the effectiveness of this approach by tracing portions of the circuits used in the IOI task. Our traces reveal considerable detail not present in previous studies, shedding light on the nature of redundant paths present in GPT-2. And our traces go beyond previous work by identifying features used to communicate between attention heads when performing IOI.
- Abstract(参考訳): 多くの論文は、注意頭は複雑なタスクを実行するために互いに協調して働くことを示した。
注意頭の間でのコミュニケーションは、トークン残基に特定の特徴を追加することによって行われるとしばしば仮定される。
本研究は,GPT-2小人数の注目者間のコミュニケーションや協調に有効な特徴を抽出し,同定することを目的とする。
この問題の鍵となるレバレッジは、これらの特徴がアテンションヘッド行列の特異ベクトルに疎結合であることを示すことである。
Indirect Object Identification (IOI) タスクに使用する場合, GPT-2 小さめの注意頭におけるこれらの信号の寸法と発生を特徴付ける。
注目ヘッド特異ベクトルによって提供される信号のスパース符号化は、残背景からの信号の効率的な分離と、注目ヘッド間の通信経路の同定を可能にする。
我々は、IOIタスクで使用される回路の一部をトレースすることで、このアプローチの有効性について検討する。
以上の結果から, GPT-2における冗長経路の性質に光を当てることにより, 従来研究には存在しなかった細部が明らかとなった。
私たちのトレースは、IOIの実行時にアテンションヘッド間の通信に使用される機能を特定することで、これまでの作業を超えています。
関連論文リスト
- Renormalized Connection for Scale-preferred Object Detection in Satellite Imagery [51.83786195178233]
我々は、効率的な特徴抽出の観点から再正規化群理論を実装するために、知識発見ネットワーク(KDN)を設計する。
KDN上の再正規化接続(RC)は、マルチスケール特徴の「相乗的焦点」を可能にする。
RCはFPNベースの検出器のマルチレベル特徴の分割・対数機構を幅広いスケールで予測されたタスクに拡張する。
論文 参考訳(メタデータ) (2024-09-09T13:56:22Z) - Learning Feature Matching via Matchable Keypoint-Assisted Graph Neural
Network [52.29330138835208]
画像のペア間の局所的な特徴の正確なマッチングは、コンピュータビジョンの課題である。
従来の研究では、注意に基づくグラフニューラルネットワーク(GNN)と、画像内のキーポイントに完全に接続されたグラフを使用するのが一般的だった。
本稿では,非繰り返しキーポイントをバイパスし,マッチング可能なキーポイントを利用してメッセージパッシングを誘導する,疎注意に基づくGNNアーキテクチャであるMaKeGNNを提案する。
論文 参考訳(メタデータ) (2023-07-04T02:50:44Z) - AiATrack: Attention in Attention for Transformer Visual Tracking [89.94386868729332]
トランスフォーマートラッカーは近年,注目機構が重要な役割を担っている,目覚ましい進歩を遂げている。
我々は,すべての相関ベクトル間のコンセンサスを求めることにより,適切な相関性を高め,誤相関を抑制する注意モジュール(AiA)を提案する。
我々のAiAモジュールは自己認識ブロックとクロスアテンションブロックの両方に容易に適用でき、視覚追跡のための特徴集約と情報伝達を容易にする。
論文 参考訳(メタデータ) (2022-07-20T00:44:03Z) - Dual Cross-Attention Learning for Fine-Grained Visual Categorization and
Object Re-Identification [19.957957963417414]
本稿では,自己意図学習と協調する2つのクロスアテンション学習(DCAL)アルゴリズムを提案する。
まず,グローバル・ローカル・クロスアテンション(GLCA)を提案する。
第2に、画像ペア間の相互作用を確立するために、ペアワイズ・クロスアテンション(PWCA)を提案する。
論文 参考訳(メタデータ) (2022-05-04T16:14:26Z) - Correlation-Aware Deep Tracking [83.51092789908677]
本稿では,自己/横断的意図に着想を得た,新たなターゲット依存型特徴ネットワークを提案する。
我々のネットワークは機能ネットワークの複数の層にクロスイメージの特徴相関を深く埋め込んでいる。
我々のモデルは、豊富な未ペア画像に対して柔軟に事前訓練が可能であり、既存の手法よりも顕著に高速な収束をもたらす。
論文 参考訳(メタデータ) (2022-03-03T11:53:54Z) - Towards Joint Intent Detection and Slot Filling via Higher-order
Attention [47.78365472691051]
Intent Detection (ID) と Slot fill (SF) は、音声言語理解(SLU)における2つの主要なタスクである。
本稿では,文脈的およびチャネル的両線的アテンション分布を利用したバイリニアアテンションブロックを提案する。
我々のアプローチは最先端のアプローチと比較して改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-09-18T09:50:23Z) - Coordinate Attention for Efficient Mobile Network Design [96.40415345942186]
チャネルの注目に位置情報を埋め込むことにより,モバイルネットワークに対する新たな注意メカニズムを提案する。
2次元グローバルプーリングにより特徴テンソルを単一特徴ベクトルに変換するチャネルアテンションとは異なり、座標アテンションはチャネルアテンションを2つの1次元特徴符号化プロセスに分解する。
座標の注意はImageNetの分類に有用であり、オブジェクト検出やセマンティックセグメンテーションといった下流タスクではよりうまく振る舞う。
論文 参考訳(メタデータ) (2021-03-04T09:18:02Z) - DanHAR: Dual Attention Network For Multimodal Human Activity Recognition
Using Wearable Sensors [9.492607098644536]
チャネルアテンションと時間アテンションを混合するフレームワークをCNNに導入するDanHARと呼ばれる新しいデュアルアテンション手法を提案する。
DanHARはパラメータの無視可能なオーバーヘッドで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-06-25T14:17:33Z) - Attention improves concentration when learning node embeddings [1.2233362977312945]
検索クエリテキストでラベル付けされたノードを考えると、製品を共有する関連クエリへのリンクを予測したい。
様々なディープニューラルネットワークを用いた実験では、注意機構を備えた単純なフィードフォワードネットワークが埋め込み学習に最適であることが示されている。
本稿では,クエリ生成モデルであるAttESTを提案する。このモデルでは,製品とクエリテキストの両方を,潜在空間に埋め込まれたベクトルとして見ることができる。
論文 参考訳(メタデータ) (2020-06-11T21:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。