論文の概要: Why Far Looks Up: Probing Spatial Representation in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2605.30161v1
- Date: Thu, 28 May 2026 16:18:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.478382
- Title: Why Far Looks Up: Probing Spatial Representation in Vision-Language Models
- Title(参考訳): 視覚言語モデルにおける空間表現の探索
- Authors: Cheolhong Min, Jaeyun Jung, Daeun Lee, Hyeonseong Jeon, Yu Su, Jonathan Tremblay, Chan Hee Song, Jaesik Park,
- Abstract要約: 視覚言語モデル(VLM)は空間推論ベンチマークにおいて高い性能を達成する。
しかし、これが構造化された3D理解の反映なのか、あるいは自然画像の統計的ショートカットに依存しているのかは不明だ。
空間軸がどのように構成されているかを測定するために,最小のコントラスト対を構成する表現レベル分析フレームワークを導入する。
- 参考スコア(独自算出の注目度): 44.01280555484389
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) achieve strong performance on spatial reasoning benchmarks, yet it remains unclear whether this reflects structured 3D understanding or reliance on statistical shortcuts in natural images. We introduce a representation-level analysis framework that constructs minimal contrastive pairs to measure how spatial axes are organized and disentangled within VLM embeddings. Our analysis across multiple model families reveals a consistent vertical-distance entanglement: models conflate vertical image position with distance, mirroring the perspective bias of natural photographs. This bias produces a significant accuracy gap between perspective-consistent and counter-heuristic examples, and intensifies under data scaling even as overall benchmark accuracy improves. We further show that models with similar benchmark scores can exhibit different internal representations, and that these differences predict accuracy and robustness across diverse spatial reasoning benchmarks. To isolate this bias from evaluation-set skew, we introduce SpatialTunnel, a synthetic benchmark designed to expose spatial shortcut biases by removing common correlations present in natural images. Experiments confirm that the entanglement is model-intrinsic, and that models with well-separated spatial axes exhibit greater robustness, suggesting that well-structured spatial representations lead to more reliable spatial reasoning across diverse benchmarks. Code and benchmark are available on the project page: https://cheolhong0916.github.io/whyfarlooksup.github.io/.
- Abstract(参考訳): 視覚言語モデル (VLM) は空間推論ベンチマークにおいて高い性能を達成しているが, 自然画像の立体的理解や統計的ショートカットへの依存を反映しているかどうかは不明である。
本稿では,VLM 埋め込みにおいて空間軸がどのように組織化され,絡み合わされているかを測定するために,最小のコントラスト対を構成する表現レベル解析フレームワークを提案する。
複数のモデルファミリにまたがる解析により、一貫した垂直距離の絡み合いが明らかとなり、モデルが垂直方向の位置を距離で分割し、自然写真の視点バイアスを反映する。
このバイアスは、パースペクティブ一貫性と反ヒューリスティックな例の間に大きな精度のギャップを生じさせ、全体的なベンチマーク精度が向上したとしても、データスケーリングの下で強化する。
さらに、類似したベンチマークスコアを持つモデルは、異なる内部表現を示すことができ、これらの差は、様々な空間的推論ベンチマーク間で精度と堅牢性を予測できることを示す。
このバイアスを評価セットスキューから分離するために,自然画像に存在する共通相関を除去して空間的ショートカットバイアスを露呈する合成ベンチマークであるSpatialTunnelを導入する。
実験により、絡み合いはモデル固有のものであり、よく分離された空間軸を持つモデルはより堅牢性を示すことが確認され、よく構造化された空間表現が様々なベンチマークにおいてより信頼性の高い空間推論をもたらすことが示唆された。
コードとベンチマークはプロジェクトのページで公開されている。
関連論文リスト
- SpatialReward: Verifiable Spatial Reward Modeling for Fine-Grained Spatial Consistency in Text-to-Image Generation [62.55421542903781]
生成された画像の空間的レイアウトを評価するために明示的に設計された検証可能な報酬モデルである textbfSpatialReward を提案する。
安定拡散とFLUXの実験により、空間的リワードをRLトレーニングに組み込むことで、空間的一貫性と全体的な生成品質が一貫して向上することが示された。
論文 参考訳(メタデータ) (2026-03-23T17:26:35Z) - Geo-ID: Test-Time Geometric Consensus for Cross-View Consistent Intrinsics [37.614964138575935]
内在的な画像分解は、画像からアルベド、粗さ、および金属性などの物理ベースのレンダリングパラメータを推定することを目的としている。
ビデオベースのモデルは、クロスフレームの一貫性を改善することができるが、高密度で順序付けられたシーケンスと相当な計算を必要とする。
クロスビュー一貫した分解を生成するために,未学習の単視点予測器を本質的に再利用する新しいテストタイムフレームワークであるGeo-IDを提案する。
論文 参考訳(メタデータ) (2026-03-14T09:36:27Z) - m2sv: A Scalable Benchmark for Map-to-Street-View Spatial Reasoning [1.2162625261919089]
マップ・ツー・ストリート・ビュー空間推論のためのスケーラブルなベンチマークであるm2svを紹介する。
制御されたあいまいさを持つ地理的に多様なベンチマークであるm2sv-20kと、教師付き微調整のための構造化された推論トレースであるm2sv-sft-11kをリリースする。
既存のマルチモーダルベンチマークの性能は高いが、最も評価されたVLMはm2svで65.2%の精度しか達成していない。
論文 参考訳(メタデータ) (2026-01-27T02:01:56Z) - Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z) - Linking Robustness and Generalization: A k* Distribution Analysis of Concept Clustering in Latent Space for Vision Models [56.89974470863207]
本稿では,局所的近傍解析手法であるk*分布を用いて,個々の概念のレベルで学習された潜伏空間について検討する。
視覚モデルの潜在空間の全体的品質を評価するために、個々の概念を解釈するための歪度に基づく真および近似メトリクスを導入する。
論文 参考訳(メタデータ) (2024-08-17T01:43:51Z) - Intriguing Equivalence Structures of the Embedding Space of Vision
Transformers [1.7418480517632609]
事前訓練された大規模な基盤モデルは、最近の人工知能の急増において中心的な役割を果たす。
それら固有の複雑さのため、これらのモデルはよく理解されていない。
解析および系統的な実験により、表現空間は大きな片方向線型部分空間からなることを示す。
論文 参考訳(メタデータ) (2024-01-28T04:59:51Z) - Towards Robust and Expressive Whole-body Human Pose and Shape Estimation [51.457517178632756]
全体のポーズと形状の推定は、単眼画像から人体全体の異なる振る舞いを共同で予測することを目的としている。
既存の手法では、既存のシナリオの複雑さの下で、しばしば劣化したパフォーマンスを示す。
全身のポーズと形状推定の堅牢性を高める新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-12-14T08:17:42Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。