論文の概要: Bi-Orthogonal Factor Decomposition for Vision Transformers
- arxiv url: http://arxiv.org/abs/2601.05328v1
- Date: Thu, 08 Jan 2026 19:11:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.748347
- Title: Bi-Orthogonal Factor Decomposition for Vision Transformers
- Title(参考訳): 視覚変換器の両直交因子分解
- Authors: Fenil R. Doshi, Thomas Fel, Talia Konkle, George Alvarez,
- Abstract要約: 自己注意(Self-attention)は、視覚変換器の中心的な計算プリミティブである。
トークンが注意を通してどのように相互作用し、どの情報的要因(位置や意味)がコミュニケーションを仲介するかを示す。
- 参考スコア(独自算出の注目度): 10.744450598329992
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-attention is the central computational primitive of Vision Transformers, yet we lack a principled understanding of what information attention mechanisms exchange between tokens. Attention maps describe where weight mass concentrates; they do not reveal whether queries and keys trade position, content, or both. We introduce Bi-orthogonal Factor Decomposition (BFD), a two-stage analytical framework: first, an ANOVA-based decomposition statistically disentangles token activations into orthogonal positional and content factors; second, SVD of the query-key interaction matrix QK^T exposes bi-orthogonal modes that reveal how these factors mediate communication. After validating proper isolation of position and content, we apply BFD to state-of-the-art vision models and uncover three phenomena.(i) Attention operates primarily through content. Content-content interactions dominate attention energy, followed by content-position coupling. DINOv2 allocates more energy to content-position than supervised models and distributes computation across a richer mode spectrum. (ii) Attention mechanisms exhibit specialization: heads differentiate into content-content, content-position, and position-position operators, while singular modes within heads show analogous specialization. (iii) DINOv2's superior holistic shape processing emerges from intermediate layers that simultaneously preserve positional structure while contextually enriching semantic content. Overall, BFD exposes how tokens interact through attention and which informational factors - positional or semantic - mediate their communication, yielding practical insights into vision transformer mechanisms.
- Abstract(参考訳): 自己注意(Self-attention)は視覚変換器の中心的な計算プリミティブである。
注意マップは重みが集中する場所を記述しており、クエリとキーが位置や内容、あるいはその両方を交換するかどうかを明らかにしていない。
まず、ANOVAをベースとした分解により、トークンの活性化を直交的な位置と内容の要素に統計的に分解し、第2に、クエリキー相互作用行列QK^TのSVDは、これらの因子が通信をどのように仲介するかを示す双方向モードを公開する。
位置と内容の適切な分離を検証した後、BFDを最先端の視覚モデルに適用し、3つの現象を明らかにする。
i) 注意は主に内容を通して行われる。
コンテンツ-コンテンツ相互作用が注目エネルギーを支配し、続いてコンテンツ-ポジション結合が続く。
DINOv2は、教師付きモデルよりもコンテントポジションにより多くのエネルギーを割り当て、よりリッチなモードスペクトルで計算を分散する。
(II) 注意機構は特殊化を示す: 頭部は内容内容、内容位置、位置決め演算子に分化し、一方、頭部内の特異モードは類似の特殊化を示す。
(三)DINOv2の優れた全体的形状処理は、文脈的に意味的内容を豊かにしながら位置構造を同時に保存する中間層から現れる。
全体として、BFDはトークンが注意を通してどのように相互作用し、どの情報的要因(位置や意味)がコミュニケーションを仲介するかを明らかにする。
関連論文リスト
- On the Emergence of Position Bias in Transformers [59.87743433861665]
本稿では,多層構造における位置バイアスを解析するためのグラフ理論フレームワークを提案する。
我々のフレームワークは、トランスにおける位置的相互作用を理解するための原則的な基盤を提供する。
論文 参考訳(メタデータ) (2025-02-04T02:53:07Z) - Unveiling and Controlling Anomalous Attention Distribution in Transformers [8.456319173083315]
ウェイバー現象は、要素が情報への貢献に影響を与えることなく過剰な注意を吸収することを可能にする。
特定のモデルでは、位置符号化と注意パターンの違いにより、モデルによるウェイブラー要素の選択は2つの方法に分類できることがわかった。
論文 参考訳(メタデータ) (2024-06-26T11:53:35Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。