論文の概要: Enhancing Spatial Reasoning through Visual and Textual Thinking
- arxiv url: http://arxiv.org/abs/2507.20529v1
- Date: Mon, 28 Jul 2025 05:24:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.86834
- Title: Enhancing Spatial Reasoning through Visual and Textual Thinking
- Title(参考訳): 視覚的・テキスト的思考による空間的推論の促進
- Authors: Xun Liang, Xin Guo, Zhongming Jin, Weihang Pan, Penghui Shang, Deng Cai, Binbin Lin, Jieping Ye,
- Abstract要約: 空間的推論タスクは,2次元空間と3次元空間の空間的関係を推論することを目的としている。
近年,視覚言語モデル (VLM) は急速に発展してきたが,空間推論の課題に苦戦している。
視覚的思考とテキスト思考を同時に行うことによって空間的推論を向上させる手法を提案する。
- 参考スコア(独自算出の注目度): 45.0026939683271
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The spatial reasoning task aims to reason about the spatial relationships in 2D and 3D space, which is a fundamental capability for Visual Question Answering (VQA) and robotics. Although vision language models (VLMs) have developed rapidly in recent years, they are still struggling with the spatial reasoning task. In this paper, we introduce a method that can enhance Spatial reasoning through Visual and Textual thinking Simultaneously (SpatialVTS). In the spatial visual thinking phase, our model is trained to generate location-related specific tokens of essential targets automatically. Not only are the objects mentioned in the problem addressed, but also the potential objects related to the reasoning are considered. During the spatial textual thinking phase, Our model conducts long-term thinking based on visual cues and dialogues, gradually inferring the answers to spatial reasoning problems. To effectively support the model's training, we perform manual corrections to the existing spatial reasoning dataset, eliminating numerous incorrect labels resulting from automatic annotation, restructuring the data input format to enhance generalization ability, and developing thinking processes with logical reasoning details. Without introducing additional information (such as masks or depth), our model's overall average level in several spatial understanding tasks has significantly improved compared with other models.
- Abstract(参考訳): 空間的推論タスクは,視覚質問応答(VQA)とロボット工学の基本的能力である2次元空間と3次元空間の空間的関係を推論することを目的としている。
近年,視覚言語モデル (VLM) は急速に発展してきたが,空間推論の課題に苦戦している。
本稿では,視覚的思考とテキスト思考を同時に行うことによって,空間的推論を向上させる手法を提案する。
空間的視覚的思考フェーズにおいて,本モデルでは位置関連特定トークンを自動生成する訓練を行っている。
問題に言及されているオブジェクトだけでなく、推論に関連する潜在的なオブジェクトも考慮されている。
空間的テキスト思考の段階では,視覚的手がかりと対話に基づく長期的思考を行い,空間的推論問題に対する回答を徐々に推測する。
モデルのトレーニングを効果的に支援するために,既存の空間推論データセットを手動で修正し,自動アノテーションによる多数の誤ラベルを排除し,データ入力形式を再構築し,一般化能力を高め,論理推論の詳細を持った思考プロセスを開発する。
マスクや奥行きなどの追加情報を導入することなく、いくつかの空間的理解タスクにおけるモデル全体の平均レベルは、他のモデルと比較して大幅に改善されている。
関連論文リスト
- Enhancing Spatial Reasoning in Multimodal Large Language Models through Reasoning-based Segmentation [50.81551581148339]
本稿では、推論に基づくセグメンテーションフレームワークRelevant Reasoning(R$2$S)を紹介する。
推論に基づくセグメンテーションデータセットである3D ReasonSegについても紹介する。
どちらの実験も、R$2$Sと3D ReasonSegは、空間的推論能力の強い3D点雲知覚を効果的に達成することを示した。
論文 参考訳(メタデータ) (2025-06-29T06:58:08Z) - Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。
我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文 参考訳(メタデータ) (2025-06-11T17:41:50Z) - Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z) - Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas [52.478956204238315]
機械的解釈可能性のレンズによる空間的推論の課題について検討する。
空間的推論の成功は、実際の物体の位置と注意を一致させるモデルの能力と強く相関している。
本研究の目的は,ADAPTVISを用いて,信頼性の高い地域への注意を喚起することである。
論文 参考訳(メタデータ) (2025-03-03T17:57:03Z) - SPHERE: Unveiling Spatial Blind Spots in Vision-Language Models Through Hierarchical Evaluation [7.659514491338669]
現在の視覚言語モデルは、基本的な空間的手がかりを把握できるが、人間のような理解や現実世界の応用に必要な多次元空間的推論に苦慮している。
我々は,新しい人間注釈付きデータセットをサポートする階層的評価フレームワークであるSPHEREを開発した。
最先端モデルのベンチマーク評価では、特に距離と近接性についての推論において、重大な欠陥が示される。
論文 参考訳(メタデータ) (2024-12-17T09:10:55Z) - Where Am I and What Will I See: An Auto-Regressive Model for Spatial Localization and View Prediction [60.964512894143475]
本稿では,空間的局所化とビュー予測を共同で扱う新しい自動回帰フレームワークである生成空間変換器(GST)を提案する。
本モデルでは,カメラのポーズを1つの画像から同時に推定し,新しいカメラのポーズから視点を予測し,空間認識と視覚予測のギャップを効果的に埋める。
論文 参考訳(メタデータ) (2024-10-24T17:58:05Z) - Weakly Supervised Relative Spatial Reasoning for Visual Question
Answering [38.05223339919346]
我々は,V&Lモデルの忠実度をこのような幾何学的理解に向けて評価する。
我々は、市販の深度推定器から弱い監督でV&Lを訓練する。
これにより、"GQA"視覚的質問応答チャレンジの精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-09-04T21:29:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。