Fugu-MT 論文翻訳(概要): DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning

論文の概要: DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning

arxiv url: http://arxiv.org/abs/2505.14362v2
Date: Mon, 26 May 2025 13:19:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 14:32:55.335959
Title: DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning
Title（参考訳）: DeepEyes: 強化学習による“Sinking with Images”のインセンティブ
Authors: Ziwei Zheng, Michael Yang, Jack Hong, Chenxiao Zhao, Guohai Xu, Le Yang, Chao Shen, Xing Yu,
Abstract要約: DeepEyesは、エンドツーエンドの強化学習を通じてインセンティブを得た、“イメージで考える”機能を備えたモデルである。本稿では,ツール・ユース指向のデータ選択機構と報奨戦略を提案する。 DeepEyesは、微粒な認識と推論ベンチマークにおいて、大幅なパフォーマンス向上を実現している。
参考スコア（独自算出の注目度）: 11.242852367476015
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Vision-Language Models (VLMs) have shown strong capabilities in multimodal understanding and reasoning, yet they are primarily constrained by text-based reasoning processes. However, achieving seamless integration of visual and textual reasoning which mirrors human cognitive processes remains a significant challenge. In particular, effectively incorporating advanced visual input processing into reasoning mechanisms is still an open question. Thus, in this paper, we explore the interleaved multimodal reasoning paradigm and introduce DeepEyes, a model with "thinking with images" capabilities incentivized through end-to-end reinforcement learning without the need for cold-start SFT. Notably, this ability emerges natively within the model itself, leveraging its inherent grounding ability as a tool instead of depending on separate specialized models. Specifically, we propose a tool-use-oriented data selection mechanism and a reward strategy to encourage successful tool-assisted reasoning trajectories. DeepEyes achieves significant performance gains on fine-grained perception and reasoning benchmarks and also demonstrates improvement in grounding, hallucination, and mathematical reasoning tasks. Interestingly, we observe the distinct evolution of tool-calling behavior from initial exploration to efficient and accurate exploitation, and diverse thinking patterns that closely mirror human visual reasoning processes. Code is available at https://github.com/Visual-Agent/DeepEyes.
Abstract（参考訳）: VLM(Large Vision-Language Models)は、マルチモーダルな理解と推論において強力な能力を示しているが、主にテキストベースの推論プロセスによって制約されている。しかし、人間の認知過程を反映した視覚的およびテキスト的推論のシームレスな統合を実現することは、依然として重要な課題である。特に、高度な視覚入力処理を推論機構に効果的に組み込むことは、まだ未解決の問題である。そこで,本稿では,インターリーブ型マルチモーダル推論のパラダイムを探求し,コールドスタートSFTを必要とせず,エンドツーエンドの強化学習を通じてインセンティブを得たDeepEyesを紹介した。注目すべきなのは、この機能がモデル自体にネイティブに現れることだ。具体的には,ツール・ユース指向のデータ選択機構と報奨戦略を提案する。 DeepEyesは、微粒な知覚と推論のベンチマークにおいて大きなパフォーマンス向上を実現し、グラウンドニング、幻覚、数学的推論タスクの改善も示している。興味深いことに、ツールコール行動の初期探索から効率的かつ正確な利用、そして人間の視覚的推論過程を忠実に反映する多様な思考パターンへの明確な進化を観察する。コードはhttps://github.com/Visual-Agent/DeepEyes.comで入手できる。

関連論文リスト

MentisOculi: Revealing the Limits of Reasoning with Mental Imagery [63.285794947638614]
視覚的解決が可能な多段階推論問題の組である MentisOculi を開発した。遅延トークンから明示的な生成画像まで,視覚的戦略を評価すると,一般的にはパフォーマンス向上に失敗する。以上の結果から,視覚的思考がモデル推論の恩恵を受けていないことが示唆された。
論文参考訳（メタデータ） (2026-02-02T18:49:06Z)
Toward Cognitive Supersensing in Multimodal Large Language Model [67.15559571626747]
我々は,MLLMに人間のような視覚的特徴を付与する訓練パラダイムであるCognitive Supersensingを紹介する。実験では、CogSense-BenchでCognitive Supersensingを訓練したMLLMが、最先端のベースラインを大きく上回った。私たちはCogSense-Benchとモデルウェイトをオープンソースにします。
論文参考訳（メタデータ） (2026-02-02T02:19:50Z)
Deep But Reliable: Advancing Multi-turn Reasoning for Thinking with Images [53.373427633330515]
DRIMは,マルチモーダルCoTの画像について考える際に,深層かつ信頼性の高いマルチターン推論を可能にするモデルである。高精細画像データセットに基づいて,高精細かつ検証可能な視覚的問合せ対を構築する。 SFTの段階では,ツールトラジェクトリをコールドスタートデータとして収集し,マルチターン推論パターンを導出する。 RLの段階では、冗長性を考慮したポリシー最適化を導入し、自己反射的推論パターンを開発するためのモデルにインセンティブを与える。
論文参考訳（メタデータ） (2025-12-19T07:44:43Z)
From Illusion to Intention: Visual Rationale Learning for Vision-Language Reasoning [19.84653798433995]
本稿では,視覚的合理性自体のトレーニングを基盤とした,エンドツーエンドのパラダイムであるVisual Rationale Learning (ViRL)を提案する。 ViRLは,(1)プロセス・スーパービジョンと,(2)ステップレベルの報酬形成による客観的アライメント,(3)きめ細かなクレジット・アサインメントを統合して,正しく,冗長で,誤動作を区別する。この研究は、透明で検証可能で信頼できる視覚言語モデルを構築するためのタスクに依存しないプロセス基底パラダイムとして、視覚的合理化を確立している。
論文参考訳（メタデータ） (2025-11-28T09:52:56Z)
Monet: Reasoning in Latent Visual Space Beyond Images and Language [55.424507246294326]
視覚的推論を推し進める上で有効なパラダイムとして「画像で考える」が登場している。既存の方法は、人間のような抽象的な視覚的思考に欠ける。 Monetは、マルチモーダルな大規模言語モデルを潜在視覚空間内で直接推論できるトレーニングフレームワークである。
論文参考訳（メタデータ） (2025-11-26T13:46:39Z)
Intention-Guided Cognitive Reasoning for Egocentric Long-Term Action Anticipation [52.6091162517921]
INSIGHTは、エゴセントリックなアクション予測のための2段階のフレームワークである。最初の段階では、INSIGHTは手動オブジェクトの相互作用領域から意味的にリッチな特徴を抽出することに焦点を当てている。第2段階では、明示的な認知的推論をシミュレートする強化学習ベースのモジュールを導入する。
論文参考訳（メタデータ） (2025-08-03T12:52:27Z)
Reasoning in machine vision: learning to think fast and slow [10.430190333487957]
推論は人間の知性の目印であり、複雑で不慣れなシナリオで適応的な意思決定を可能にする。マシンインテリジェンスは、推論時にソリューションを動的に洗練する能力がないため、トレーニングデータに縛られている。本稿では,思考時間の増加に伴う性能向上を実現することにより,視覚における機械推論を可能にする新しい学習パラダイムを提案する。
論文参考訳（メタデータ） (2025-06-27T10:03:05Z)
Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文参考訳（メタデータ） (2025-06-11T17:41:50Z)
Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning [78.17782197231325]
本稿では,抽出者のキャプション動作と推論目的を一致させる推論誘導型強化学習戦略を提案する。マルチモーダルな数学と科学ベンチマークの実験により、提案手法は最先端の平均性能を達成することを示した。
論文参考訳（メタデータ） (2025-06-05T02:28:07Z)
Align and Surpass Human Camouflaged Perception: Visual Refocus Reinforcement Fine-Tuning [18.13538667261998]
現在のマルチモーダルモデルは、背景に視覚的に同化されている物体を特定する際に、人間の視覚システムと顕著な相違を示す。我々は、人間の視覚的カモフラージュされた知覚を段階的に再現し、視覚的隠蔽コンテンツを反復的に再焦点する視覚システムを構築した。
論文参考訳（メタデータ） (2025-05-26T07:27:18Z)
VisuoThink: Empowering LVLM Reasoning with Multimodal Tree Search [89.43196232124883]
VisuoThinkは、視覚空間と言語ドメインをシームレスに統合する新しいフレームワークである。プログレッシブなビジュアルテキスト推論を可能にし、ルックアヘッドツリーサーチによるテストタイムスケーリングを組み込む。
論文参考訳（メタデータ） (2025-04-12T08:37:30Z)
A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では,視覚言語モデル(VLM)における知覚推論インタフェースを識別するための構造化評価フレームワークを提案する。本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。このフレームワークを適用したCAは、リッチで独立に生成された記述を推論するために強力な言語モデルを活用し、新しい最先端(SOTA)パフォーマンスを実現することを実証する。
論文参考訳（メタデータ） (2025-01-23T12:42:42Z)
Imagine while Reasoning in Space: Multimodal Visualization-of-Thought [70.74453180101365]
大型言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)の複雑な推論を強化するために、CoTプロンプト(Chain-of-Thought)が有効であることが証明された。我々は新しい推論パラダイムであるMultimodal Visualization-of-Thought (MVoT)を提案する。 MLLMにおいて、推論トレースの画像視覚化を生成することにより、視覚的思考を可能にする。
論文参考訳（メタデータ） (2025-01-13T18:23:57Z)
Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文参考訳（メタデータ） (2025-01-08T18:31:16Z)
LATTE: Learning to Think with Vision Specialists [103.5952731807559]
我々は、認識を最先端の視覚モデルにオフロードする視覚言語モデルのファミリーであるLATTEを提案する。我々のアプローチは、認識を最先端の視覚モデルにオフロードすることで、視覚言語モデルが高品質な知覚情報に対する推論のみに集中できるようにする。
論文参考訳（メタデータ） (2024-12-07T00:42:04Z)
Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文参考訳（メタデータ） (2024-04-24T17:59:48Z)
Minding Language Models' (Lack of) Theory of Mind: A Plug-and-Play Multi-Character Belief Tracker [72.09076317574238]
ToMは,読解における文字の信念状態を調べるためのプラグアンドプレイ方式である。 ToMは、教師付きベースラインと比較して、配電性能が堅牢でありながら、ゼロオーダー設定でのオフ・ザ・シェルフニューラルネットワーク理論の考え方を強化する。
論文参考訳（メタデータ） (2023-06-01T17:24:35Z)
Machine Psychology [54.287802134327485]
我々は、心理学にインスパイアされた行動実験において、研究のための実りある方向が、大きな言語モデルに係わっていると論じる。本稿では,本手法が表に示す理論的視点,実験パラダイム,計算解析技術について述べる。これは、パフォーマンスベンチマークを超えた、生成人工知能(AI)のための「機械心理学」の道を開くものだ。
論文参考訳（メタデータ） (2023-03-24T13:24:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。