論文の概要: SPACENUM: Revisiting Spatial Numerical Understanding in VLMs
- arxiv url: http://arxiv.org/abs/2605.23898v1
- Date: Fri, 22 May 2026 17:58:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.463141
- Title: SPACENUM: Revisiting Spatial Numerical Understanding in VLMs
- Title(参考訳): SPACENUM:VLMにおける空間的数値理解の再考
- Authors: Jianshu Zhang, Yijiang Li, Huifeixin Chen, Haoran Lu, Letian Xue, Bingyang Wang, Han Liu,
- Abstract要約: 本研究では,視覚言語モデル(VLM)が空間的設定における数値を真に理解しているかどうかを考察する。
動的遷移と静的なレイアウトの全体にわたって、モデルが空間的意味において数値をグラウンドするのにほとんど失敗することがわかった。
明示的推論は限界ゲインしか提供しないが、チューニングは空間的数値的理解を部分的に改善できることを示す。
- 参考スコア(独自算出の注目度): 14.025058020258816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) are increasingly deployed in embodied environments, where they need produce numerical outputs such as action magnitudes and spatial coordinates. Although these numbers appear meaningful, it remains unclear whether these numerical outputs are genuinely grounded in spatial perception. Therefore, in this work, we revisit spatial numerical understanding through SpaceNum, a unified framework that captures two complementary settings: numbers as dynamic transitions during spatial exploration, and numbers as static layouts in spatial reasoning. We formulate two bidirectional tasks, Num2Space and Space2Num, to evaluate how well VLMs map between vision-side spatial structure and language-side numerical representations. We systematically study whether current VLMs truly understand numerical values in spatial settings. Across dynamic transitions and static layouts, we find that models largely fail to ground numbers in spatial meaning and often perform close to random guess. Through error analysis, reasoning trace analysis, and controlled interventions, we show that current VLMs rely heavily on shallow spatial cues, struggle to build stable coordinate-aware representations, and fail to abstract structured spatial layouts from visual observations. We further show that explicit reasoning provides only marginal gains, while tuning can partially improve spatial numerical understanding and transfer to external spatial reasoning benchmarks.
- Abstract(参考訳): VLM(Vision-Language Models)は、アクションサイズや空間座標などの数値出力を生成する必要がある、エンボディ環境での展開が増えている。
これらの数値は意味あるように見えるが、これらの数値出力が実際に空間知覚に基礎を置いているかは不明である。
そこで本研究では,空間探索中の動的遷移としての数値と,空間推論における静的なレイアウトとしての数値の2つの相補的な設定を捉える統一的なフレームワークであるSpaceNumを用いて,空間的数値的理解を再考する。
Num2SpaceとSpace2Numという2つの双方向タスクを定式化し、視覚側空間構造と言語側数値表現の間のVLMの対応性を評価する。
我々は,現在のVLMが空間的設定における数値を真に理解しているかどうかを体系的に検討する。
動的遷移や静的なレイアウトを通して、モデルが空間的意味において数値を基底にせず、しばしばランダムな推測に近づかないことが分かる。
誤差解析、トレース分析、制御された介入により、現在のVLMは浅い空間的手がかりに大きく依存し、安定した座標認識表現の構築に苦慮し、視覚的観察から構造化された空間的レイアウトを抽象化することができないことを示す。
さらに,空間的数値的理解と外部空間的推論ベンチマークへの変換を部分的に改善する一方,明示的推論は限界ゲインのみを提供することを示す。
関連論文リスト
- Uncovering and Shaping the Latent Representation of 3D Scene Topology in Vision-Language Models [9.722829662835233]
現代の視覚言語モデル (VLM) には3次元シーンの潜在的トポロジマップが存在することを示す。
この空間部分空間をクロスシーン線形特徴抽出により分離することにより,モデルの空間出力を因果的に制御するクリーン空間部分空間を抽出する。
この潜在表現を数学的に形成し、シーンの3次元ガウス-核グラフのラプラシア固有写像との対応性を証明する。
論文 参考訳(メタデータ) (2026-05-08T02:32:27Z) - Spatial Reasoning in Foundation Models: Benchmarking Object-Centric Spatial Understanding [8.202861909913791]
基礎モデルにおけるオブジェクト中心空間推論のベンチマークを示す。
グラウンディングディーノやOWLv2のような検出器は、リレーショナル推論に制限のある正確なボックスを提供する。
本研究は,地域化と真の空間理解のギャップを強調し,地域社会における空間認識基盤モデルの必要性を指摘する。
論文 参考訳(メタデータ) (2025-09-26T06:06:19Z) - LRR-Bench: Left, Right or Rotate? Vision-Language models Still Struggle With Spatial Understanding Tasks [22.011855291417856]
VLM(Vision-Language Models)が空間的関係を認識し空間的動きを知覚する方法は、まだ解明されていない。
本研究では,空間評価パイプラインを導入し,対応するベンチマークを構築する。
我々は、複数の最先端VLMの実験を行い、改善の余地があることを観察する。
論文 参考訳(メタデータ) (2025-07-27T08:31:24Z) - FloorplanQA: A Benchmark for Spatial Reasoning in LLMs using Structured Representations [78.65988445433844]
FloorplanQAは、大規模言語モデルにおける空間的推論を評価するための診断ベンチマークである。
このベンチマークでは、距離測定、可視性、経路探索、制約空間内のオブジェクト配置など、中核的な空間的タスクをカバーしている。
論文 参考訳(メタデータ) (2025-07-10T11:16:48Z) - Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z) - Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas [69.56484419619919]
機械的解釈可能性のレンズによる空間的推論の課題について検討する。
空間的推論の成功は、実際の物体の位置と注意を一致させるモデルの能力と強く相関している。
本研究の目的は,ADAPTVISを用いて,信頼性の高い地域への注意を喚起することである。
論文 参考訳(メタデータ) (2025-03-03T17:57:03Z) - Sparkle: Mastering Basic Spatial Capabilities in Vision Language Models Elicits Generalization to Spatial Reasoning [36.588008658084895]
視覚言語モデル(VLM)は多くのタスクでうまく機能するが、しばしば空間的推論では失敗する。
評価の結果, 現状のVLMでは, 複合空間問題に対する不正確な答えが得られていることがわかった。
VLMにおける2次元空間推論は,基本空間能力のみに基づいて訓練することで向上する。
論文 参考訳(メタデータ) (2024-10-21T16:26:09Z) - SpatialRGPT: Grounded Spatial Reasoning in Vision Language Models [68.13636352687257]
VLMの空間知覚と推論能力を高めるために空間領域GPT(SpatialRGPT)を導入する。
推測中、ユーザが指定した領域の提案が提供されると、SpatialRGPTは相対的な方向と距離を正確に知覚できる。
本研究では,空間的推論タスクにおける局所的プロンプトと非局所的プロンプトの双方において,空間的RGPTにより性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-06-03T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。