論文の概要: When More Is Less: A Systematic Analysis of Spatial and Commonsense Information for Visual Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2602.21619v1
- Date: Wed, 25 Feb 2026 06:22:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.725588
- Title: When More Is Less: A Systematic Analysis of Spatial and Commonsense Information for Visual Spatial Reasoning
- Title(参考訳): より少ない場合:視覚空間推論のための空間・常識情報の体系的分析
- Authors: Muku Akasaka, Soyeon Caren Han,
- Abstract要約: 視覚的空間的推論のための情報注入の仮説駆動分析を行う。
より多くの情報が必ずしもより良い推論をもたらすとは限らないことが分かっています。
これらの知見は,タスク整合性情報注入の重要性を浮き彫りにした。
- 参考スコア(独自算出の注目度): 14.364968874702107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual spatial reasoning (VSR) remains challenging for modern vision-language models (VLMs), despite advances in multimodal architectures. A common strategy is to inject additional information at inference time, such as explicit spatial cues, external commonsense knowledge, or chain-of-thought (CoT) reasoning instructions. However, it remains unclear when such information genuinely improves reasoning and when it introduces noise. In this paper, we conduct a hypothesis-driven analysis of information injection for VSR across three representative VLMs and two public benchmarks. We examine (i) the type and number of spatial contexts, (ii) the amount and relevance of injected commonsense knowledge, and (iii) the interaction between spatial grounding and CoT prompting. Our results reveal a consistent pattern: more information does not necessarily yield better reasoning. Targeted single spatial cues outperform multi-context aggregation, excessive or weakly relevant commonsense knowledge degrades performance, and CoT prompting improves accuracy only when spatial grounding is sufficiently precise. These findings highlight the importance of selective, task-aligned information injection and provide practical guidance for designing reliable multimodal reasoning pipelines.
- Abstract(参考訳): 視覚空間推論(VSR)は、マルチモーダルアーキテクチャの進歩にもかかわらず、現代の視覚言語モデル(VLM)では依然として困難である。
一般的な戦略は、明示的な空間的手がかり、外部コモンセンス知識、チェーン・オブ・シークレット(CoT)推論命令など、推論時に追加情報を注入することである。
しかし、そのような情報が真に推論を改善し、いつノイズを発生させるのかははっきりしない。
本稿では,3つの代表的なVLMと2つの公開ベンチマークを用いて,VSRに対する情報注入の仮説駆動分析を行う。
検討する
(i)空間文脈の種類と数
二 注射用常識知識の量及び関連性、及び
3)空間接地とCoTプロンプトの相互作用
より多くの情報が必ずしもより良い推論をもたらすとは限らない。
ターゲットされた単一空間的手がかりは、マルチコンテキストアグリゲーションより優れ、過剰または弱関連コモンセンス知識は性能を低下させ、CoTプロンプトは空間的接地が十分に正確である場合にのみ精度を向上させる。
これらの知見は、タスク整合型情報注入の重要性を強調し、信頼性の高いマルチモーダル推論パイプラインを設計するための実践的なガイダンスを提供する。
関連論文リスト
- STReasoner: Empowering LLMs for Spatio-Temporal Reasoning in Time Series via Spatial-Aware Reinforcement Learning [16.11676643415448]
時系列における時空間推論には、時間力学、空間依存、テキストコンテキストの明示的な合成が含まれる。
この能力は、交通ネットワークや電力網、病気の伝播といったシステムにおける高い意思決定に不可欠である。
このギャップに対処するために、エチオロジー推論、エンティティ識別、相関推論、コンテキスト内予測を含む4つのコアタスクからなるベンチマークであるST-Benchを導入する。
次に,STReasonerを提案し,LLMが時系列,グラフ構造,テキストを明示的な推論のために統合できるようにする。
論文 参考訳(メタデータ) (2026-01-06T18:46:12Z) - How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective [103.44502230776352]
視覚言語モデル(VLM)における視覚空間推論(VSR)の系統的研究について述べる。
空間インテリジェンスを3つのレベル,すなわち基本的な知覚,空間理解,空間計画,および空間インテリジェンスベンチマークSIBenchに分類した。
論文 参考訳(メタデータ) (2025-09-23T12:00:14Z) - InteGround: On the Evaluation of Verification and Retrieval Planning in Integrative Grounding [51.80327078402434]
仮説クエリをサポートするために、複数の独立したエビデンスを検索し、検証するという課題である。
まず,LLMは冗長な証拠に対して頑健であるのに対して,情報の不完全な場合,内部知識を合理的に活用する傾向にある。
ノイズ導入による非方向性計画が性能を低下させるのに対して, 前提推論は論理的制約のため, 有望なアプローチとして現れる。
論文 参考訳(メタデータ) (2025-09-20T04:48:24Z) - Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas [69.56484419619919]
機械的解釈可能性のレンズによる空間的推論の課題について検討する。
空間的推論の成功は、実際の物体の位置と注意を一致させるモデルの能力と強く相関している。
本研究の目的は,ADAPTVISを用いて,信頼性の高い地域への注意を喚起することである。
論文 参考訳(メタデータ) (2025-03-03T17:57:03Z) - Reframing Spatial Reasoning Evaluation in Language Models: A Real-World Simulation Benchmark for Qualitative Reasoning [4.422649561583363]
言語モデル(LM)における空間推論評価のための新しいベンチマークを提案する。
現実的な3Dシミュレーションデータに基づいており、様々なオブジェクトとそれらの空間的関係を持つ一連の多様な部屋レイアウトを提供する。
重要なコントリビューションは、論理ベースの一貫性チェックツールです。
論文 参考訳(メタデータ) (2024-05-23T21:22:00Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。