論文の概要: Measuring Affinity between Attention-Head Weight Subspaces via the Projection Kernel
- arxiv url: http://arxiv.org/abs/2601.10266v1
- Date: Thu, 15 Jan 2026 10:37:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.104637
- Title: Measuring Affinity between Attention-Head Weight Subspaces via the Projection Kernel
- Title(参考訳): 投影カーネルによるアテンション重み部分空間間の親和性の測定
- Authors: Hiroaki Yamagiwa, Yusuke Takase, Hidetoshi Shimodaira,
- Abstract要約: 我々は,注目重み行列で表される部分空間に着目し,プロジェクションカーネル(PK)を用いた頭部間関係の定量化を行う。
実験により、PKは、コンポジションスコアのような以前の指標よりも、IOIタスクにおける既知の頭対頭相互作用をより明確に再現することが示された。
応用として、PKから構築された有向グラフを分析し、GPT2-smallでは、L4H7がアイデンティティヘッドとして機能してハブとして機能することを示す。
- 参考スコア(独自算出の注目度): 8.729998428218247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding relationships between attention heads is essential for interpreting the internal structure of Transformers, yet existing metrics do not capture this structure well. We focus on the subspaces spanned by attention-head weight matrices and quantify head-to-head relationships using the Projection Kernel (PK), a principal-angle-based measure of subspace similarity. Experiments show that PK reproduces known head-to-head interactions on the IOI task more clearly than prior metrics such as the Composition Score. We further introduce a framework to quantify the informativeness of PK distributions by comparing them with a reference distribution derived from random orthogonal subspaces. As an application, we analyze a directed graph constructed from PK and show that, in GPT2-small, L4H7 acts as a hub by functioning as an identity head.
- Abstract(参考訳): 注目ヘッド間の関係を理解することはトランスフォーマーの内部構造を理解するのに不可欠であるが、既存のメトリクスはこの構造をうまく捉えていない。
本稿では,注目重み行列で表される部分空間に着目し,主角に基づく部分空間類似度尺度である射影カーネル(PK)を用いて頭部間関係の定量化を行う。
実験により、PKは、コンポジションスコアのような以前の指標よりも、IOIタスクにおける既知の頭対頭相互作用をより明確に再現することが示された。
さらに,PK分布をランダム直交部分空間から導出した参照分布と比較することにより,PK分布の有意性を定量化する枠組みを導入する。
応用として、PKから構築された有向グラフを分析し、GPT2-smallでは、L4H7がアイデンティティヘッドとして機能してハブとして機能することを示す。
関連論文リスト
- CAPE: A CLIP-Aware Pointing Ensemble of Complementary Heatmap Cues for Embodied Reference Understanding [56.30142869506262]
身体的参照理解(Embodied Reference Understanding)は、シーンの人物が指し示すジェスチャーと言語の両方を通して参照しているオブジェクトを予測する。
本稿では,2重モデルフレームワークを提案し,一方のモデルが頭指先方向から学習し,他方のモデルが手指先方向から学習する。
我々は、ベンチマークYouRefItデータセットの広範な実験と分析を通じてアプローチを検証し、0.25IoU閾値で約4mAPの改善を実現した。
論文 参考訳(メタデータ) (2025-07-29T15:00:21Z) - RiemannFormer: A Framework for Attention in Curved Spaces [0.43512163406552]
この研究は、トランスフォーマーベースのアーキテクチャのさらなる可能性を解き放つための洞察を提供する努力である。
主な動機の1つは、変圧器における注意機構の幾何学的解釈を提供することである。
論文 参考訳(メタデータ) (2025-06-09T03:56:18Z) - Causal Head Gating: A Framework for Interpreting Roles of Attention Heads in Transformers [3.9274867826451323]
本稿では,変圧器モデルにおける注目頭部の機能的役割を解釈するスケーラブルな方法として,因果頭部ゲーティング(CHG)を提案する。
CHGは頭上のソフトゲートを学び、タスクのパフォーマンスへの影響に基づいて因果分類を割り当てる。
以上の結果から,CHGスコアは単なる相関ではなく,アブレーションと因果媒介分析によって評価された洞察をもたらすことが示された。
論文 参考訳(メタデータ) (2025-05-19T21:24:13Z) - Unpacking Positional Encoding in Transformers: A Spectral Analysis of Content-Position Coupling [10.931433906211534]
ポジショナルエンコーディング(PE)は、トランスフォーマーがシーケンシャルな構造をモデル化できるようにするために不可欠である。
本稿では,Toeplitzと関連する行列のスペクトル特性からPEを解析する統一フレームワークを提案する。
我々は, PE設計の鍵となる原理として, 相対配置Toeplitz信号を用いた明示的コンテンツ相対混合を確立する。
論文 参考訳(メタデータ) (2025-05-19T12:11:13Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Eigen Analysis of Self-Attention and its Reconstruction from Partial
Computation [58.80806716024701]
ドット積に基づく自己注意を用いて計算した注意点のグローバルな構造について検討する。
注意点の変動の大部分は低次元固有空間にあることがわかった。
トークンペアの部分的な部分集合に対してのみスコアを計算し、それを用いて残りのペアのスコアを推定する。
論文 参考訳(メタデータ) (2021-06-16T14:38:42Z) - Channelized Axial Attention for Semantic Segmentation [70.14921019774793]
チャネルアキシャルアテンション(CAA)を提案し、チャネルアテンションと軸アテンションをシームレスに統合し、計算複雑性を低減します。
私たちのCAAは、DANetのような他の注意モデルに比べて計算リソースをはるかに少なくするだけでなく、すべての検証済みデータセット上で最先端のResNet-101ベースのセグメンテーションモデルよりも優れています。
論文 参考訳(メタデータ) (2021-01-19T03:08:03Z) - Discovering alignment relations with Graph Convolutional Networks: a
biomedical case study [9.567950832094668]
本稿では,グラフ畳み込みネットワークを用いたノード埋め込み学習により,知識グラフ内のノードをマッチングすることを提案する。
薬理ゲノミクス分野における知識整合の現実的応用について,本手法を用いて実験を行った。
論文 参考訳(メタデータ) (2020-11-11T19:19:20Z) - Attention improves concentration when learning node embeddings [1.2233362977312945]
検索クエリテキストでラベル付けされたノードを考えると、製品を共有する関連クエリへのリンクを予測したい。
様々なディープニューラルネットワークを用いた実験では、注意機構を備えた単純なフィードフォワードネットワークが埋め込み学習に最適であることが示されている。
本稿では,クエリ生成モデルであるAttESTを提案する。このモデルでは,製品とクエリテキストの両方を,潜在空間に埋め込まれたベクトルとして見ることができる。
論文 参考訳(メタデータ) (2020-06-11T21:21:12Z) - Augmented Parallel-Pyramid Net for Attention Guided Pose-Estimation [90.28365183660438]
本稿では、注意部分モジュールと微分可能な自動データ拡張を備えた拡張並列ピラミドネットを提案する。
我々は、データ拡張のシーケンスをトレーニング可能なCNNコンポーネントとして定式化する新しいポーズ検索空間を定義する。
特に,本手法は,挑戦的なCOCOキーポイントベンチマークとMPIIデータセットの最先端結果において,トップ1の精度を実現する。
論文 参考訳(メタデータ) (2020-03-17T03:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。