論文の概要: Spatial Reasoning is Not a Free Lunch: A Controlled Study on LLaVA
- arxiv url: http://arxiv.org/abs/2603.12545v1
- Date: Fri, 13 Mar 2026 01:11:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.828771
- Title: Spatial Reasoning is Not a Free Lunch: A Controlled Study on LLaVA
- Title(参考訳): 空間共振は自由ランチではない:LLaVAの制御された研究
- Authors: Nahid Alam, Leema Krishna Murali, Siddhant Bharadwaj, Patrick Liu, Timothy Chung, Drishti Sharma, Akshata A., Kranthi Kiran, Wesley Tam, Bala Krishna S Vegesna,
- Abstract要約: 視覚言語モデル(VLM)は急速に進歩しているが、基本的な空間的推論に苦慮している。
この失敗は単なるデータ問題ではなく、現在のVLMパイプラインにおける設計上の決定に密接に結びついている、と私たちは主張する。
我々は,LLaVAフレームワーク内で,これらの選択が空間接地に与える影響を識別するための制御された診断研究を提案する。
- 参考スコア(独自算出の注目度): 3.9393480686002715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) have advanced rapidly, yet they still struggle with basic spatial reasoning. Despite strong performance on general benchmarks, modern VLMs remain brittle at understanding 2D spatial relationships such as relative position, layout, and counting. We argue that this failure is not merely a data problem, but is closely tied to dominant design choices in current VLM pipelines: reliance on CLIP-style image encoders and the flattening of images into 1D token sequences with 1D positional encoding. We present a controlled diagnostic study within the LLaVA framework to isolate how these choices affect spatial grounding. We evaluate frontier models and LLaVA variants on a suite of spatial benchmarks, comparing CLIP-based encoders against alternatives trained with denser or generative objectives, as well as variants augmented with 2D positional encoding. Our results show consistent spatial performance gaps across models, and indicate that encoder objectives and positional structure shape spatial behavior, but do not fully resolve it.
- Abstract(参考訳): 視覚言語モデル(VLM)は急速に進歩しているが、基本的な空間的推論に苦慮している。
一般的なベンチマークでの強い性能にもかかわらず、現代のVLMは相対位置、レイアウト、カウントといった2次元空間関係を理解するのに脆弱なままである。
この失敗は単なるデータ問題ではなく、現在のVLMパイプラインにおいて、CLIPスタイルの画像エンコーダへの依存や、1D位置エンコーディングによる1Dトークンシーケンスへの画像のフラット化といった、設計上の決定に密接に結びついている、と我々は主張する。
我々は,LLaVAフレームワーク内で,これらの選択が空間接地に与える影響を識別するための制御された診断研究を提案する。
空間的ベンチマークを用いてフロンティアモデルとLLaVAの変種を評価し、CLIPベースのエンコーダを2次元位置符号化を付加した変種と比較した。
この結果から,エンコーダの目的と位置構造が空間的挙動を形作っているが,完全には解決していないことが示唆された。
関連論文リスト
- The Spatial Blindspot of Vision-Language Models [3.9393480686002715]
視覚言語モデル(VLM)は急速に進歩しているが、空間的関係を捉える能力は依然として盲点である。
この空間的認識の欠如は、VLM設計における欠落次元であり、空間的接地を必要とするアプリケーションのボトルネックである、と我々は主張する。
論文 参考訳(メタデータ) (2026-01-15T00:30:34Z) - SpaceDrive: Infusing Spatial Awareness into VLM-based Autonomous Driving [38.21244888074097]
SpaceDriveは、空間情報をテキスト桁トークンの代わりに明示的な位置符号化(PE)として扱う空間認識駆動フレームワークである。
我々は,SpaceDriveがnuScenesデータセットで最先端のオープンループ性能を実現し,Bench2Driveベンチマークで78.02のドライビングスコアを達成したことを示す。
論文 参考訳(メタデータ) (2025-12-11T14:59:07Z) - SpatialGeo:Boosting Spatial Reasoning in Multimodal LLMs via Geometry-Semantics Fusion [23.86761713752287]
MLLM(Multimodal large language model)は、画像および言語タスクにおいて大きな進歩を遂げている。
ほとんどのMLLMは、空間的配置を3次元空間で解釈し推論する限られた空間的推論能力に悩まされている。
幾何学と意味論の階層的融合に基づく新しい視覚エンコーダを提案し,空間認識型視覚埋め込みを生成する。
論文 参考訳(メタデータ) (2025-11-21T15:24:33Z) - Spatial Reasoning in Foundation Models: Benchmarking Object-Centric Spatial Understanding [8.202861909913791]
基礎モデルにおけるオブジェクト中心空間推論のベンチマークを示す。
グラウンディングディーノやOWLv2のような検出器は、リレーショナル推論に制限のある正確なボックスを提供する。
本研究は,地域化と真の空間理解のギャップを強調し,地域社会における空間認識基盤モデルの必要性を指摘する。
論文 参考訳(メタデータ) (2025-09-26T06:06:19Z) - SD-VLM: Spatial Measuring and Understanding with Depth-Encoded Vision-Language Models [75.64836077468722]
視覚言語モデル(VLM)は2次元意味的視覚的理解において優れているが、3次元空間的関係について定量的に推論する能力はいまだ未解明のままである。
VLMの基本空間知覚能力を大幅に向上させる新しいフレームワークであるSD-VLMを提案する。
我々はSD-VLMを訓練した。これは強力な一般化VLMであり、より優れた空間的測定と理解能力を示す。
論文 参考訳(メタデータ) (2025-09-22T12:08:12Z) - FloorplanQA: A Benchmark for Spatial Reasoning in LLMs using Structured Representations [78.65988445433844]
FloorplanQAは、大規模言語モデルにおける空間的推論を評価するための診断ベンチマークである。
このベンチマークでは、距離測定、可視性、経路探索、制約空間内のオブジェクト配置など、中核的な空間的タスクをカバーしている。
論文 参考訳(メタデータ) (2025-07-10T11:16:48Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - On Robust Cross-View Consistency in Self-Supervised Monocular Depth Estimation [56.97699793236174]
本論文では,2種類の堅牢なクロスビュー整合性について検討する。
深度特徴空間と3次元ボクセル空間の時間的コヒーレンスを自己教師付き単眼深度推定に利用した。
いくつかのアウトドアベンチマークの実験結果から,本手法は最先端技術より優れていることが示された。
論文 参考訳(メタデータ) (2022-09-19T03:46:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。