Fugu-MT 論文翻訳(概要): Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing

論文の概要: Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing

arxiv url: http://arxiv.org/abs/2506.09965v1
Date: Wed, 11 Jun 2025 17:41:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 06:35:03.175133
Title: Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing
Title（参考訳）: 女性間思考と視覚描画を伴う視覚言語モデルにおける空間推論の強化
Authors: Junfei Wu, Jian Guan, Kaituo Feng, Qiang Liu, Shu Wu, Liang Wang, Wei Wu, Tieniu Tan,
Abstract要約: 空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
参考スコア（独自算出の注目度）: 62.447497430479174
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: As textual reasoning with large language models (LLMs) has advanced significantly, there has been growing interest in enhancing the multimodal reasoning capabilities of large vision-language models (LVLMs). However, existing methods primarily approach multimodal reasoning in a straightforward, text-centric manner, where both reasoning and answer derivation are conducted purely through text, with the only difference being the presence of multimodal input. As a result, these methods often encounter fundamental limitations in spatial reasoning tasks that demand precise geometric understanding and continuous spatial tracking-capabilities that humans achieve through mental visualization and manipulation. To address the limitations, we propose drawing to reason in space, a novel paradigm that enables LVLMs to reason through elementary drawing operations in the visual space. By equipping models with basic drawing operations, including annotating bounding boxes and drawing auxiliary lines, we empower them to express and analyze spatial relationships through direct visual manipulation, meanwhile avoiding the performance ceiling imposed by specialized perception tools in previous tool-integrated reasoning approaches. To cultivate this capability, we develop a three-stage training framework: cold-start training with synthetic data to establish basic drawing abilities, reflective rejection sampling to enhance self-reflection behaviors, and reinforcement learning to directly optimize for target rewards. Extensive experiments demonstrate that our model, named VILASR, consistently outperforms existing methods across diverse spatial reasoning benchmarks, involving maze navigation, static spatial reasoning, video-based reasoning, and multi-view-based reasoning tasks, with an average improvement of 18.4%.
Abstract（参考訳）: 大規模言語モデル(LLM)によるテキスト推論が著しく進歩しているため、大規模視覚言語モデル(LVLM)のマルチモーダル推論能力の向上への関心が高まっている。しかし,従来の手法では,文章による推論と回答の導出の両方が純粋に行われ,その違いは多モーダル入力の存在のみである,単純でテキスト中心的な多モーダル推論にアプローチしている。結果として、これらの手法は、正確な幾何学的理解と、人間の心的可視化と操作によって達成される連続的な空間的追跡能力を必要とする空間的推論タスクにおいて、基本的な制限に直面することが多い。この制約に対処するために,LVLMの視覚空間における基本的な描画操作を通した推論を可能にする新しいパラダイムである,空間における推論への描画を提案する。本研究では, 従来のツール統合推論手法において, 特殊認識ツールが課した性能天井を避けつつ, 直接視覚操作による空間関係の表現と解析を行う。この能力を育成するために, 基本描画能力を確立するための合成データを用いたコールドスタートトレーニング, 自己回帰行動を高めるための反射的拒絶サンプリング, 目標報酬を直接最適化するための強化学習という3段階のトレーニングフレームワークを開発した。広汎な実験により、我々のモデルであるVILASRは、迷路ナビゲーション、静的空間推論、ビデオベースの推論、マルチビューベースの推論タスクなど、様々な空間推論のベンチマークにおいて、既存の手法を一貫して上回り、平均18.4%改善した。

関連論文リスト

Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning [78.17782197231325]
本稿では,抽出者のキャプション動作と推論目的を一致させる推論誘導型強化学習戦略を提案する。マルチモーダルな数学と科学ベンチマークの実験により、提案手法は最先端の平均性能を達成することを示した。
論文参考訳（メタデータ） (2025-06-05T02:28:07Z)
Decoupled Visual Interpretation and Linguistic Reasoning for Math Problem Solving [57.22004912994658]
現在の大型視覚言語モデル(LVLM)は、通常、大型言語モデル(LLM)のテキスト埋め込みと視覚的特徴をリンクするためのコネクタモジュールを使用する。本稿では,エンド・ツー・エンドの視覚言語推論モデルをトレーニングする代わりに,分離された推論フレームワークの開発を提唱する。
論文参考訳（メタデータ） (2025-05-23T08:18:00Z)
ManipLVM-R1: Reinforcement Learning for Reasoning in Embodied Manipulation with Large Vision-Language Models [26.955482205849282]
LVLM(Large Vision-Language Models)は近年,視覚をシーン認識や言語に活用してロボット操作を進化させた。本稿では,従来の指導をRLVR(Verifiable Rewards)を用いた強化学習に置き換える新しい強化学習フレームワークであるManipLVM-R1を提案する。
論文参考訳（メタデータ） (2025-05-22T10:57:07Z)
DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning [11.242852367476015]
DeepEyesは、エンドツーエンドの強化学習を通じてインセンティブを得た、“イメージで考える”機能を備えたモデルである。本稿では,ツール・ユース指向のデータ選択機構と報奨戦略を提案する。 DeepEyesは、微粒な認識と推論ベンチマークにおいて、大幅なパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2025-05-20T13:48:11Z)
Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning [58.86928947970342]
Embodied-Rは、知覚のための大規模視覚言語モデルと推論のための小規模言語モデルを組み合わせたフレームワークである。わずか5kのエボダイドビデオサンプルのトレーニングの後、Embodied-Rと3B LMは最先端のマルチモーダル推論モデルと一致した。 Embodied-Rは、体系的分析や文脈統合のような創発的な思考パターンも示している。
論文参考訳（メタデータ） (2025-04-17T06:16:11Z)
SPHERE: Unveiling Spatial Blind Spots in Vision-Language Models Through Hierarchical Evaluation [7.659514491338669]
現在の視覚言語モデルは、基本的な空間的手がかりを把握できるが、人間のような理解や現実世界の応用に必要な多次元空間的推論に苦慮している。我々は,新しい人間注釈付きデータセットをサポートする階層的評価フレームワークであるSPHEREを開発した。最先端モデルのベンチマーク評価では、特に距離と近接性についての推論において、重大な欠陥が示される。
論文参考訳（メタデータ） (2024-12-17T09:10:55Z)
Sparkle: Mastering Basic Spatial Capabilities in Vision Language Models Elicits Generalization to Spatial Reasoning [19.399925987942204]
視覚言語モデル (VLM) は、幅広い下流タスクにおいて印象的なパフォーマンスを示している。ほとんどのタスクは、2次元(2D)環境でのコア空間推論能力に依存している。本稿では,合成データ生成を用いて視覚言語モデル(VLM)を3つの基本的な空間的能力で監視するフレームワークであるSparkleを紹介する。
論文参考訳（メタデータ） (2024-10-21T16:26:09Z)
Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文参考訳（メタデータ） (2024-04-24T17:59:48Z)
PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文参考訳（メタデータ） (2023-11-29T02:17:27Z)
Improving Vision-and-Language Reasoning via Spatial Relations Modeling [30.477235227733928]
ビジュアルコモンセンス推論(VCR)は、難しいマルチモーダルタスクである。提案手法は,より空間的な文脈を維持するために表現を導くことができる。 VCRと他の2つの視覚・言語推論タスクであるVQAとNLVRについて、最先端の結果を得る。
論文参考訳（メタデータ） (2023-11-09T11:54:55Z)
Visual Chain of Thought: Bridging Logical Gaps with Multimodal Infillings [61.04460792203266]
本稿では, 逐次データ内の論理的ギャップを埋めるために, 視覚言語による接地を促進させる, チェーン・オブ・シントを利用する新しい手法であるVCoTを紹介する。本手法は,下流タスクの論理的ギャップを低減するために,一貫した情報と新しい情報を加える合成マルチモーダル埋め込みを生成するために視覚誘導を用いる。
論文参考訳（メタデータ） (2023-05-03T17:58:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。