論文の概要: What are you sinking? A geometric approach on attention sink
- arxiv url: http://arxiv.org/abs/2508.02546v1
- Date: Mon, 04 Aug 2025 15:59:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.415523
- Title: What are you sinking? A geometric approach on attention sink
- Title(参考訳): 何を沈めているのか? -注目の沈みに関する幾何学的アプローチ-
- Authors: Valeria Ruscio, Umberto Nanni, Fabrizio Silvestri,
- Abstract要約: 注意シンク(AS: Attention sink)は、あるトークンが他のトークンから注意を引き付けるような、トランスフォーマーの注意マップにおける一貫したパターンである。
変換器では、ASはアーキテクチャアーティファクトではなく、基本的な幾何学的原理の顕現であることを示す。
- 参考スコア(独自算出の注目度): 6.552700667389349
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention sink (AS) is a consistent pattern in transformer attention maps where certain tokens (often special tokens or positional anchors) disproportionately attract attention from other tokens. We show that in transformers, AS is not an architectural artifact, but it is the manifestation of a fundamental geometric principle: the establishment of reference frames that anchor representational spaces. We analyze several architectures and identify three distinct reference frame types, centralized, distributed, and bidirectional, that correlate with the attention sink phenomenon. We show that they emerge during the earliest stages of training as optimal solutions to the problem of establishing stable coordinate systems in high-dimensional spaces. We show the influence of architecture components, particularly position encoding implementations, on the specific type of reference frame. This perspective transforms our understanding of transformer attention mechanisms and provides insights for both architecture design and the relationship with AS.
- Abstract(参考訳): 注意シンク(AS: Attention sink)は、特定のトークン(しばしば特別なトークンまたは位置アンカー)が他のトークンから不均等に注意を引き付ける、トランスフォーマー注意マップにおける一貫したパターンである。
変換器において、ASは建築的アーティファクトではなく、表現空間をアンカーする参照フレームの確立という基本的な幾何学的原理の顕現であることを示す。
いくつかのアーキテクチャを分析し,集中型,分散型,双方向型の3種類の参照フレームを同定し,注目シンク現象と相関する。
高次元空間における安定座標系を確立する問題に対する最適解として,訓練の初期段階に現れることを示す。
アーキテクチャコンポーネント,特に位置符号化実装が参照フレームの特定のタイプに与える影響を示す。
この視点は、トランスフォーマーのアテンション機構の理解を変換し、アーキテクチャ設計とASとの関係の両方について洞察を提供する。
関連論文リスト
- Cross-architecture universal feature coding via distribution alignment [88.73189953617594]
クロスアーキテクチャユニバーサル特徴符号化(CAUFC)という新しい研究課題を導入する。
まず,CNN と Transformer が一貫した2次元トークン形式に特徴付けるフォーマットアライメント手法を設計し,また,トランケーションと正規化によって統計分布を調和させる特徴値アライメント手法を提案する。
本稿では,CAUFCを最初に研究する試みとして,画像分類作業における手法の評価を行い,本手法がアーキテクチャ固有のベースラインに比べて高いレート精度のトレードオフを実現することを示す。
論文 参考訳(メタデータ) (2025-06-15T06:14:02Z) - On the Emergence of Position Bias in Transformers [59.87743433861665]
本稿では,多層構造における位置バイアスを解析するためのグラフ理論フレームワークを提案する。
我々のフレームワークは、トランスにおける位置的相互作用を理解するための原則的な基盤を提供する。
論文 参考訳(メタデータ) (2025-02-04T02:53:07Z) - Learning Correlation Structures for Vision Transformers [93.22434535223587]
構造自己注意(StructSA)と呼ばれる新しい注意機構を導入する。
我々は、畳み込みによるキー-クエリ相関の時空間構造を認識して注意マップを生成する。
これは、シーンレイアウト、オブジェクトの動き、オブジェクト間の関係など、画像やビデオのリッチな構造パターンを効果的に活用する。
論文 参考訳(メタデータ) (2024-04-05T07:13:28Z) - GTA: A Geometry-Aware Attention Mechanism for Multi-View Transformers [63.41460219156508]
既存の位置符号化方式は3次元視覚タスクに最適であると主張する。
トークンの幾何学的構造を相対変換として符号化する幾何学的注意機構を提案する。
我々は、Geometric Transform Attention (GTA) と呼ばれる、最先端のトランスフォーマーベースNVSモデルの学習効率と性能を向上させることに留意している。
論文 参考訳(メタデータ) (2023-10-16T13:16:09Z) - Spherical Position Encoding for Transformers [0.0]
本稿では,トランスアーキテクチャの入力要素である「ゲオトケン」の概念を紹介する。
自然言語とは異なり、逐次位置はモデルにとって重要ではなく、地理的座標である。
球面座標の調整を行うRoPEアーキテクチャに基づく位置符号化機構を定式化する。
論文 参考訳(メタデータ) (2023-10-04T09:28:59Z) - On the interplay of adversarial robustness and architecture components:
patches, convolution and attention [65.20660287833537]
本研究は,学習した特徴の解釈可能性と,未知の脅威モデルに対する頑健性に及ぼす対人訓練の効果について検討する。
ResNetからConvNeXtへのアブレーションにより、キーとなるアーキテクチャ上の変更により、約10%高い$ell_infty$-robustnessが実現した。
論文 参考訳(メタデータ) (2022-09-14T22:02:32Z) - Ripple Attention for Visual Perception with Sub-quadratic Complexity [7.425337104538644]
トランスフォーマーアーキテクチャは現在、自然言語処理タスクのモデリングの中心となっている。
視覚知覚のためのサブクワッドアテンション機構であるリップルアテンションを提案する。
ripple attentionでは、クエリに対する異なるトークンのコントリビューションは、2次元空間における相対空間距離に対して重み付けされる。
論文 参考訳(メタデータ) (2021-10-06T02:00:38Z) - Cross-view Geo-localization with Evolving Transformer [7.5800316275498645]
クロスビューなジオローカライゼーションは、視界の劇的な外観と幾何学的差異のために困難である。
本研究では,Transformerにおける自己アテンションの特性を利用してグローバルな依存関係をモデル化する新しいジオローカライゼーショントランスフォーマー(EgoTR)を提案する。
我々のEgoTRは、標準的な、きめ細かな、そして、クロスデータセットなジオローカライゼーションタスクにおいて、最先端の手法に対して好意的に機能する。
論文 参考訳(メタデータ) (2021-07-02T05:33:14Z) - Twins: Revisiting Spatial Attention Design in Vision Transformers [81.02454258677714]
本稿では,注意深い空間的注意機構が最先端のスキームに対して好適に機能することを実証する。
Twins-PCPVTとTwins-SVTの2つのビジョントランスアーキテクチャを提案します。
提案するアーキテクチャは,現代のディープラーニングフレームワークに高度に最適化された行列乗算のみを含む,高効率かつ実装が容易である。
論文 参考訳(メタデータ) (2021-04-28T15:42:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。