論文の概要: Thinking with Blueprints: Assisting Vision-Language Models in Spatial Reasoning via Structured Object Representation
- arxiv url: http://arxiv.org/abs/2601.01984v1
- Date: Mon, 05 Jan 2026 10:38:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.970004
- Title: Thinking with Blueprints: Assisting Vision-Language Models in Spatial Reasoning via Structured Object Representation
- Title(参考訳): 青写真で考える:構造化対象表現による空間推論における視覚言語モデルの構築
- Authors: Weijian Ma, Shizhao Sun, Tianyu Yu, Ruiyu Wang, Tat-Seng Chua, Jiang Bian,
- Abstract要約: 空間的推論は視覚的知覚から意味的理解へと視覚言語モデルを前進させる。
物体中心の青写真という認知概念を空間的推論に統合する。
我々の手法は既存の視覚言語モデルより一貫して優れている。
- 参考スコア(独自算出の注目度): 52.605647992080485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial reasoning -- the ability to perceive and reason about relationships in space -- advances vision-language models (VLMs) from visual perception toward spatial semantic understanding. Existing approaches either revisit local image patches, improving fine-grained perception but weakening global spatial awareness, or mark isolated coordinates, which capture object locations but overlook their overall organization. In this work, we integrate the cognitive concept of an object-centric blueprint into VLMs to enhance spatial reasoning. Given an image and a question, the model first constructs a JSON-style blueprint that records the positions, sizes, and attributes of relevant objects, and then reasons over this structured representation to produce the final answer. To achieve this, we introduce three key techniques: (1) blueprint-embedded reasoning traces for supervised fine-tuning to elicit basic reasoning skills; (2) blueprint-aware rewards in reinforcement learning to encourage the blueprint to include an appropriate number of objects and to align final answers with this causal reasoning; and (3) anti-shortcut data augmentation that applies targeted perturbations to images and questions, discouraging reliance on superficial visual or linguistic cues. Experiments show that our method consistently outperforms existing VLMs and specialized spatial reasoning models.
- Abstract(参考訳): 空間的推論 - 空間における関係を知覚し、推論する能力 - は、視覚的知覚から空間的意味理解へ視覚言語モデル(VLM)を進化させる。
既存のアプローチでは、局所的なイメージパッチを再検討し、きめ細かい認識を改善し、世界空間の認識を弱めるか、あるいはオブジェクトの位置を捉えながら組織全体を見渡す、孤立した座標をマークする。
本研究では,物体中心のブループリントの認知的概念をVLMに統合し,空間的推論を強化する。
画像と疑問が与えられた後、モデルはまず、関連するオブジェクトの位置、サイズ、属性を記録するJSONスタイルの青写真を構築し、次に、この構造化された表現に関する理由から最終回答を生成する。
そこで本研究では,(1)基本推論スキルを引き出すための指導的微調整のための青写真埋め込み推論トレース,(2)対象物を適切に含み,最終回答をこの因果推論と整合させる強化学習における青写真認識報酬,(3)画像や質問に標的的摂動を適用した反ショートカットデータ増強,および表面的視覚的・言語的手がかりへの依存を抑えること,の3つの主要な手法を紹介する。
実験により,本手法は既存のVLMや特殊空間推論モデルより一貫して優れていることが示された。
関連論文リスト
- Spatial Reasoning in Foundation Models: Benchmarking Object-Centric Spatial Understanding [8.202861909913791]
基礎モデルにおけるオブジェクト中心空間推論のベンチマークを示す。
グラウンディングディーノやOWLv2のような検出器は、リレーショナル推論に制限のある正確なボックスを提供する。
本研究は,地域化と真の空間理解のギャップを強調し,地域社会における空間認識基盤モデルの必要性を指摘する。
論文 参考訳(メタデータ) (2025-09-26T06:06:19Z) - Enhancing Spatial Reasoning through Visual and Textual Thinking [45.0026939683271]
空間的推論タスクは,2次元空間と3次元空間の空間的関係を推論することを目的としている。
近年,視覚言語モデル (VLM) は急速に発展してきたが,空間推論の課題に苦戦している。
視覚的思考とテキスト思考を同時に行うことによって空間的推論を向上させる手法を提案する。
論文 参考訳(メタデータ) (2025-07-28T05:24:54Z) - Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z) - Beyond Semantics: Rediscovering Spatial Awareness in Vision-Language Models [13.768090541138571]
視覚言語モデル(VLM)はオブジェクトの識別と記述に優れるが、しばしば空間的推論では失敗する。
視覚トークンの埋め込みは、テキストトークンよりもはるかに大きな規範を持っている。
視覚トークンとシステムが注目を惹きつけることを明らかにするツール。
論文 参考訳(メタデータ) (2025-03-21T17:51:14Z) - Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas [69.56484419619919]
機械的解釈可能性のレンズによる空間的推論の課題について検討する。
空間的推論の成功は、実際の物体の位置と注意を一致させるモデルの能力と強く相関している。
本研究の目的は,ADAPTVISを用いて,信頼性の高い地域への注意を喚起することである。
論文 参考訳(メタデータ) (2025-03-03T17:57:03Z) - Spotlight Attention: Robust Object-Centric Learning With a Spatial
Locality Prior [88.9319150230121]
オブジェクト中心のビジョンは、シーン内のオブジェクトの明示的な表現を構築することを目的としています。
我々は、空間的局所性を最先端のオブジェクト中心視覚モデルに組み込む。
合成および実世界の両方のデータセットにおけるセグメンテーションオブジェクトの大幅な改善が得られた。
論文 参考訳(メタデータ) (2023-05-31T04:35:50Z) - Bi-directional Object-context Prioritization Learning for Saliency
Ranking [60.62461793691836]
既存のアプローチは、オブジェクトオブジェクトかオブジェクトシーンの関係を学ぶことに集中しています。
我々は,人間の視覚認識システムにおいて,空間的注意と物体に基づく注意が同時に機能することが観察された。
本稿では,空間的注意を統一する新たな双方向手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T16:16:03Z) - Weakly Supervised Relative Spatial Reasoning for Visual Question
Answering [38.05223339919346]
我々は,V&Lモデルの忠実度をこのような幾何学的理解に向けて評価する。
我々は、市販の深度推定器から弱い監督でV&Lを訓練する。
これにより、"GQA"視覚的質問応答チャレンジの精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-09-04T21:29:06Z) - Interpretable Visual Reasoning via Induced Symbolic Space [75.95241948390472]
視覚的推論における概念誘導の問題,すなわち,画像に関連付けられた質問応答対から概念とその階層的関係を同定する。
我々はまず,オブジェクトレベルの視覚的特徴を持つ視覚的推論タスクを実行するために,オブジェクト指向合成注意モデル(OCCAM)という新しいフレームワークを設計する。
そこで我々は,対象の視覚的特徴と質問語の間の注意パターンから手がかりを用いて,対象と関係の概念を誘導する手法を考案した。
論文 参考訳(メタデータ) (2020-11-23T18:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。