論文の概要: V-Thinker: Interactive Thinking with Images
- arxiv url: http://arxiv.org/abs/2511.04460v1
- Date: Thu, 06 Nov 2025 15:32:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.478386
- Title: V-Thinker: Interactive Thinking with Images
- Title(参考訳): V-Thinker: イメージを使ったインタラクティブ思考
- Authors: Runqi Qiao, Qiuna Tan, Minghan Yang, Guanting Dong, Peiqing Yang, Shiqiang Lang, Enhui Wan, Xiaowan Wang, Yida Xu, Lan Yang, Chong Sun, Chen Li, Honggang Zhang,
- Abstract要約: 視覚中心推論の最近の進歩は、大型マルチモーダルモデル(LMM)のための有望な「シンキング・ウィズ・イメージ」パラダイムを探求している
エンド・ツー・エンドの強化学習を通じてインタラクティブな視覚中心の思考を可能にする汎用マルチモーダル推論アシスタントであるV-Thinkerを提案する。
V-Thinkerは、一般的な推論シナリオと対話的な推論シナリオの両方において、強力なLMMベースのベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 22.55079103487787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Empowering Large Multimodal Models (LMMs) to deeply integrate image interaction with long-horizon reasoning capabilities remains a long-standing challenge in this field. Recent advances in vision-centric reasoning explore a promising "Thinking with Images" paradigm for LMMs, marking a shift from image-assisted reasoning to image-interactive thinking. While this milestone enables models to focus on fine-grained image regions, progress remains constrained by limited visual tool spaces and task-specific workflow designs. To bridge this gap, we present V-Thinker, a general-purpose multimodal reasoning assistant that enables interactive, vision-centric thinking through end-to-end reinforcement learning. V-Thinker comprises two key components: (1) a Data Evolution Flywheel that automatically synthesizes, evolves, and verifies interactive reasoning datasets across three dimensions-diversity, quality, and difficulty; and (2) a Visual Progressive Training Curriculum that first aligns perception via point-level supervision, then integrates interactive reasoning through a two-stage reinforcement learning framework. Furthermore, we introduce VTBench, an expert-verified benchmark targeting vision-centric interactive reasoning tasks. Extensive experiments demonstrate that V-Thinker consistently outperforms strong LMM-based baselines in both general and interactive reasoning scenarios, providing valuable insights for advancing image-interactive reasoning applications.
- Abstract(参考訳): LMM(Large Multimodal Models)を組み込んで、長期の推論能力と画像の相互作用を深く統合することは、この分野における長年にわたる課題である。
視覚中心推論の最近の進歩は、画像支援推論から画像対話的思考へのシフトを示す、LMMのための有望な"Thinking with Images"パラダイムを探求している。
このマイルストーンは、モデルがきめ細かなイメージ領域に集中できるようにする一方で、視覚的なツールスペースやタスク固有のワークフロー設計によって、進捗は制限されているままである。
このギャップを埋めるために、我々は、エンドツーエンドの強化学習を通じてインタラクティブな視覚中心の思考を可能にする汎用マルチモーダル推論アシスタントであるV-Thinkerを紹介する。
V-Thinkerは、(1)3次元にわたる対話型推論データセットを自動合成、進化、検証するData Evolution Flywheel、(2)ポイントレベルの監視を通じて認識を調整し、2段階の強化学習フレームワークを通じて対話型推論を統合するビジュアルプログレッシブトレーニングカリキュラムである。
さらに、視覚中心の対話的推論タスクをターゲットとした、専門家が検証したベンチマークであるVTBenchを紹介する。
広汎な実験により、V-Thinkerは一般的な推論シナリオと対話的な推論シナリオの両方において強力なLMMベースのベースラインを一貫して上回り、画像対話型推論アプリケーションを進める上で貴重な洞察を提供する。
関連論文リスト
- ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning [76.95203056566191]
マルチモーダル推論は言語と視覚の反復的調整を必要とするが、何が意味あるインターリーブド思考の連鎖を構成するかは定かではない。
我々はThinkMorphを開発した。ThinkMorphは、視覚的エンゲージメントの異なるタスクにまたがる、約24Kの高品質なインターリーブ付き推論トレースに基づいて微調整された統一モデルだ。
ThinkMorphは、一貫性のある言語論理を維持しながら、視覚的コンテンツを具体的に操作する、プログレッシブなテキストイメージ推論ステップを生成することを学ぶ。
論文 参考訳(メタデータ) (2025-10-30T17:51:38Z) - Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers [90.4459196223986]
同様の進化がAIで展開され、単にイメージについて考えるモデルから、イメージについて真に考えるモデルへのパラダイムシフトを象徴している。
この新たなパラダイムは、視覚情報を思考過程の中間ステップとして活用するモデルによって特徴づけられ、視覚を受動的に操作可能な認知ワークスペースに変換する。
論文 参考訳(メタデータ) (2025-06-30T14:48:35Z) - Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。
我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文 参考訳(メタデータ) (2025-06-11T17:41:50Z) - Seeing Beyond the Scene: Enhancing Vision-Language Models with Interactional Reasoning [27.511627003202538]
伝統的なシーングラフは主に空間的関係に焦点を当て、視覚シーンにおける複雑な相互作用を推論する視覚言語モデル(VLM)の能力を制限する。
本稿では,(1) 従来の検出・構築手法は,非集中的かつ文脈的に無関係な関係集合を生成し,(2) 既存の手法では,新しい場面に起因した相互作用を一般化するための永続記憶の形成に失敗する,という2つの課題に対処する。
本稿では,3つの相補的なコンポーネントを通してVLMの相互作用推論を強化するフレームワークであるISGRを提案する。
論文 参考訳(メタデータ) (2025-05-14T04:04:23Z) - Weaving Context Across Images: Improving Vision-Language Models through Focus-Centric Visual Chains [31.828341309787042]
視覚言語モデル(VLM)は、単一画像タスクにおいて顕著な成功を収める。
現実のシナリオでは複雑なマルチイメージの入力が伴うことが多く、パフォーマンスが著しく低下する。
マルチイメージシナリオにおけるVLMの知覚、理解、推論能力を高める新しいパラダイムであるFocus-Centric Visual Chainを提案する。
論文 参考訳(メタデータ) (2025-04-28T19:02:18Z) - CMMCoT: Enhancing Complex Multi-Image Comprehension via Multi-Modal Chain-of-Thought and Memory Augmentation [12.008690947774015]
マルチイメージ理解のための「スロー思考」を模倣した多段階推論フレームワークを提案する。
重要な視覚領域トークンを利用したインターリーブマルチモーダル多段階推論チェーンの構築
推論中にモデル推論能力を拡張するテスト時メモリ拡張モジュールの導入。
論文 参考訳(メタデータ) (2025-03-07T09:13:17Z) - A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では,視覚言語モデル(VLM)における知覚推論インタフェースを識別するための構造化評価フレームワークを提案する。
本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。
このフレームワークを適用したCAは、リッチで独立に生成された記述を推論するために強力な言語モデルを活用し、新しい最先端(SOTA)パフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - Question Aware Vision Transformer for Multimodal Reasoning [14.188369270753347]
マルチモーダル推論のための質問認識型視覚変換器QA-ViTを提案する。
視覚エンコーダに直接質問認識を埋め込む。
この統合により、仮定された問題に関連性のある画像の側面に焦点を当てた動的視覚的特徴が得られる。
論文 参考訳(メタデータ) (2024-02-08T08:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。