論文の概要: Positional Encodings Anchor Spatial Structure in Vision Transformers: A Geometric Perspective on Robustness
- arxiv url: http://arxiv.org/abs/2606.00124v1
- Date: Thu, 28 May 2026 13:17:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:27.983732
- Title: Positional Encodings Anchor Spatial Structure in Vision Transformers: A Geometric Perspective on Robustness
- Title(参考訳): 視覚変換器におけるアンカー空間構造の位置エンコーディング:ロバスト性に関する幾何学的視点
- Authors: Mahmoud Mannes,
- Abstract要約: 位置埋め込み(PE)の異なる形態が視覚変換器(ViT)の表現幾何学に与える影響について検討する。
PEを使わずにトレーニングしたViTは、まだ非自明な空間構造を発達しているが、この構造は、視覚的内容によって駆動され、トークンの置換の下で崩壊する。
すべてのPE(学習絶対, 正弦波, 回転)が, 指数アンコールされた空間構造への一貫したシフトに関連していることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Positional embeddings (PEs) in Vision Transformers (ViTs) are known to impact performance and robustness, but their role in shaping internal spatial representations is not well understood. In this work, we study how different forms of PEs influence the representational geometry of ViTs and how these changes relate to robustness under content-disrupting distribution shifts. We introduce a metric, the Spatial Similarity Distance Correlation (SSDC), to quantify spatial structure in token representations. Using this metric, we show that ViTs trained without PEs still develop non-trivial spatial structure, but this structure is driven by visual content and collapses under token permutation. In contrast, we find that all PEs considered (learned absolute, sinusoidal, and rotary) are associated with a consistent shift toward an index-anchored spatial organization. Representations in these models remain stable under perturbations that disrupt content, and exhibit substantially improved robustness to such distributional shifts. We further show that while different PEs produce distinct depth-wise trajectories of spatial structure, their robustness properties are largely similar (with secondary variation across encoding schemes), suggesting that robustness appears to depend on the presence of a stable positional reference frame more than it depends on the specific encoding mechanism. These results offer a geometric account of how positional encodings shape internal representations, with implications for the principled design of future encoding schemes.
- Abstract(参考訳): 視覚変換器(ViT)における位置埋め込み(PE)は、性能とロバスト性に影響を与えることが知られているが、内部空間表現の形成におけるそれらの役割はよく理解されていない。
本研究では, 異なる形態のPEが, ViTの表現幾何学にどのように影響するか, これらの変化が, コンテンツ破壊分布シフトの下でのロバスト性にどのように影響するかを検討する。
本稿では,トークン表現における空間構造を定量化するための距離空間類似距離相関法(SSDC)を提案する。
この測定値を用いて,PEを使わずにトレーニングしたViTsは依然として非自明な空間構造を発達させるが,この構造は視覚的内容とトークンの置換による崩壊によって引き起こされる。
対照的に、考慮されたすべてのPE(学習絶対、正弦波、回転)は、指数アンコールされた空間組織への一貫したシフトと関連している。
これらのモデルにおける表現は、コンテンツを破壊する摂動の下で安定であり、そのような分布シフトに対するロバスト性を大幅に改善している。
さらに,異なるPEが空間構造の深度的に異なる軌跡を生成する一方で,そのロバスト性は(符号化方式間で二次的な変動を伴う)ほぼ同様であり,ロバスト性は特定の符号化機構よりも安定した位置参照フレームの存在に依存することが示唆された。
これらの結果は、位置エンコーディングが内部表現をどのように形成するかを幾何学的に説明し、将来のエンコーディングスキームの原則設計に影響を及ぼす。
関連論文リスト
- PathAR: Structure-First Autoregressive Synthesis of Multimodal Pathology Images [51.428093790826814]
そこで我々は, モーダリティ・ラベル条件付き病理モデル (PathAR) を用いて, 構造と外観を分解し, 自己回帰モデル(PathAR)を提案する。
PathARは、不均一なモダリティ固有の外観下で形態を安定化し、空間的に整列したイメージマスクペア生成を可能にする。
論文 参考訳(メタデータ) (2026-06-01T01:43:48Z) - Hierarchical Consistency Learning for Test-time Adaptation in Camouflage Perception [50.278200968044665]
カモフラージュされた物体検出(COD)は、物理的属性を通して背景から最小限の知覚差を示すターゲットをローカライズすることを目的としている。
既存のメソッドは、静的なTrain-then-freezeパラダイムによって制約されており、ドメインの剛性と依存性のアノテーションに悩まされている。
動的表現再構成のためのテスト時間適応を統合した階層的一貫性学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-25T09:57:46Z) - Tempered Self-Similarity Alignment for Physically Plausible Video Generation [83.40337664171939]
自己相似性損失は確率的対応に変化し、映像生成モデルを動的に変化する領域の視覚基盤モデルと対応付けるよう訓練する。
本手法は,映像生成における関係知識の伝達の有効性を検証し,多種多様な相互作用シナリオにおける物理的妥当性の大幅な向上を示す。
論文 参考訳(メタデータ) (2026-05-24T09:28:05Z) - Beyond Point-Wise Matching: Structural Representation Alignment for Accelerating Diffusion Transformers [93.3976834364707]
本稿では,特徴写像のリレーショナル幾何における整合性を実現する構造的RePresentation AlignmentフレームワークであるsREPAを提案する。
モデルが事前訓練された特徴から全体的空間配置と構造的相関を内包するように促すことにより、sREPAはより高速でより安定した収束を達成する。
論文 参考訳(メタデータ) (2026-05-16T12:01:04Z) - Invariance on Manifolds: Understanding Robust Visual Representations for Place Recognition [19.200074425090595]
本稿では,2次幾何統計フレームワークを提案する。
提案手法では、固定されたトレーニング済みのバックボーン上に構築されたトレーニング不要のフレームワークを導入し、パラメータ更新なしで強力なゼロショット一般化を実現する。
論文 参考訳(メタデータ) (2026-01-31T18:12:29Z) - Geometrically Constrained and Token-Based Probabilistic Spatial Transformers [5.437226012505534]
我々は、トランスフォーマーベースのビジョンパイプラインの標準化ツールとして、空間トランスフォーマーネットワーク(STN)を再考する。
本稿では、堅牢性を向上させる確率的、コンポーネントワイドな拡張を提案する。
本手法が他のSTNと比較して頑健さを常に向上することを示す。
論文 参考訳(メタデータ) (2025-09-14T11:30:53Z) - Learning Spatial Decay for Vision Transformers [50.63391799053993]
視覚変換器(ViT)はコンピュータビジョンに革命をもたらしたが、その自己認識機構には明らかに空間誘導バイアスがない。
既存のアプローチでは、固定距離メトリクスに基づくデータ非依存の空間減衰が導入されている。
データ依存型空間減衰の2次元視覚変換器への適応が最初に成功した例を示す。
論文 参考訳(メタデータ) (2025-08-13T06:18:32Z) - GTA: A Geometry-Aware Attention Mechanism for Multi-View Transformers [63.41460219156508]
既存の位置符号化方式は3次元視覚タスクに最適であると主張する。
トークンの幾何学的構造を相対変換として符号化する幾何学的注意機構を提案する。
我々は、Geometric Transform Attention (GTA) と呼ばれる、最先端のトランスフォーマーベースNVSモデルの学習効率と性能を向上させることに留意している。
論文 参考訳(メタデータ) (2023-10-16T13:16:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。