論文の概要: Geometry without Position? When Positional Embeddings Help and Hurt Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2601.22231v1
- Date: Thu, 29 Jan 2026 19:04:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.013583
- Title: Geometry without Position? When Positional Embeddings Help and Hurt Spatial Reasoning
- Title(参考訳): 位置のない幾何学 : 位置埋め込みが空間的推論を助けるとき
- Authors: Jian Shi, Michael Birsak, Wenqing Cui, Zhenyu Li, Peter Wonka,
- Abstract要約: 本稿では,視覚変換器(ViT)における位置埋め込み(PE)の役割を幾何学的観点から再考する。
PEは単なるトークン指標ではなく,表現の空間構造を形作る幾何学的先行指標として効果的に機能することを示す。
ViT表現における空間構造を規定する因果的機構としてのPEの役割を明らかにする。
- 参考スコア(独自算出の注目度): 46.701926049208545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper revisits the role of positional embeddings (PEs) within vision transformers (ViTs) from a geometric perspective. We show that PEs are not mere token indices but effectively function as geometric priors that shape the spatial structure of the representation. We introduce token-level diagnostics that measure how multi-view geometric consistency in ViT representation depends on consitent PEs. Through extensive experiments on 14 foundation ViT models, we reveal how PEs influence multi-view geometry and spatial reasoning. Our findings clarify the role of PEs as a causal mechanism that governs spatial structure in ViT representations. Our code is provided in https://github.com/shijianjian/vit-geometry-probes
- Abstract(参考訳): 本稿では,視覚変換器(ViT)における位置埋め込み(PE)の役割を幾何学的観点から再考する。
PEは単なるトークン指標ではなく,表現の空間構造を形作る幾何学的先行指標として効果的に機能することを示す。
本稿では,VT表現における多視点幾何整合性がコンセプタントPEに依存するかを測定するトークンレベルの診断手法を提案する。
14の基礎的ViTモデルに関する広範な実験を通して、PEがマルチビュー幾何学と空間的推論にどのように影響するかを明らかにする。
ViT表現における空間構造を規定する因果的機構としてのPEの役割を明らかにする。
我々のコードはhttps://github.com/shijianjian/vit-geometry-probesで提供されている。
関連論文リスト
- On Geometric Understanding and Learned Data Priors in VGGT [38.8968170074396]
Visual Geometry Grounded Transformer (VGGT) は、カメラ形状とシーン構造を単一のフィードフォワードパスで推論する3次元基礎モデルである。
本稿では,VGGTの内部機構を体系的に解析し,幾何学的理解が表現の中に現れるかどうかを明らかにする。
論文 参考訳(メタデータ) (2025-12-12T12:11:57Z) - Visualizing LLM Latent Space Geometry Through Dimensionality Reduction [0.0]
我々は,トランスフォーマーに基づく言語モデルにおける潜在状態空間を次元的還元により抽出し,プロセスし,可視化する。
我々はGPT-2およびLLaMaモデルの実験を行い、潜在空間における興味深い幾何学的パターンを明らかにする。
論文 参考訳(メタデータ) (2025-11-26T17:11:39Z) - Geometry matters: insights from Ollivier Ricci Curvature and Ricci Flow into representational alignment through Ollivier-Ricci Curvature and Ricci Flow [0.014893065504013906]
本稿では,Ollivier Ricci Curvature と Ricci Flow を用いて表現の微細な局所構造を解析するフレームワークを提案する。
本研究では,2次元および3次元の顔刺激に対する人間の類似性判定を,ベースラインの2次元ネイティブネットワーク(VGG-Face)と比較し,人間の行動に適合した変形体と比較する。
論文 参考訳(メタデータ) (2025-01-01T18:33:48Z) - Internal structure of gauge-invariant Projected Entangled Pair States [0.0]
投影された絡み合ったペア状態(PEPS)は、自然にグローバルまたはローカル(ゲージ)の対称性を符号化することができる。
局所対称性を持つPEPSは、格子ゲージ理論の非摂動的状態の研究にますます使われている。
射影対対状態の内部構造をゲージ対称性で研究する。
論文 参考訳(メタデータ) (2024-10-24T17:37:37Z) - GeoDeformer: Geometric Deformable Transformer for Action Recognition [22.536307401874105]
視覚トランスフォーマーは、近年、行動認識のための畳み込みネットワークの効果的な代替品として登場した。
本稿では,幾何学的理解を直接ViTアーキテクチャに組み込むことで,アクションビデオに固有の変動を捉えるための新しいアプローチであるGeoDeformerを提案する。
論文 参考訳(メタデータ) (2023-11-29T16:55:55Z) - GTA: A Geometry-Aware Attention Mechanism for Multi-View Transformers [63.41460219156508]
既存の位置符号化方式は3次元視覚タスクに最適であると主張する。
トークンの幾何学的構造を相対変換として符号化する幾何学的注意機構を提案する。
我々は、Geometric Transform Attention (GTA) と呼ばれる、最先端のトランスフォーマーベースNVSモデルの学習効率と性能を向上させることに留意している。
論文 参考訳(メタデータ) (2023-10-16T13:16:09Z) - DeepMLS: Geometry-Aware Control Point Deformation [76.51312491336343]
本稿では,空間に基づく変形技術であるDeepMLSを紹介する。
ニューラルネットワークの力を利用して、下層の形状を変形パラメータに注入する。
本手法は直感的に滑らかな変形をしやすくし, 製造物に適している。
論文 参考訳(メタデータ) (2022-01-05T23:55:34Z) - PTR: A Benchmark for Part-based Conceptual, Relational, and Physical
Reasoning [135.2892665079159]
PTRと呼ばれる大規模診断用視覚推論データセットを新たに導入する。
PTRは70kのRGBD合成画像と地上の真実のオブジェクトと部分レベルのアノテーションを含んでいる。
このデータセット上で、いくつかの最先端の視覚的推論モデルを調べ、それらがまだ多くの驚くべき誤りを犯していることを観察する。
論文 参考訳(メタデータ) (2021-12-09T18:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。