論文の概要: DeepEyesV2: Toward Agentic Multimodal Model
- arxiv url: http://arxiv.org/abs/2511.05271v1
- Date: Fri, 07 Nov 2025 14:31:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.791764
- Title: DeepEyesV2: Toward Agentic Multimodal Model
- Title(参考訳): DeepEyesV2:エージェントマルチモーダルモデルに向けて
- Authors: Jack Hong, Chenxiao Zhao, ChengLin Zhu, Weiheng Lu, Guohai Xu, Xing Yu,
- Abstract要約: エージェントマルチモーダルモデルは、テキストやイメージを理解するだけでなく、コード実行環境やWeb検索といった外部ツールを積極的に起動し、これらの操作を推論に統合する必要がある。
本稿では,DeepEyesV2を導入し,データ構築,トレーニング方法,モデル評価の観点からエージェント型マルチモーダルモデルの構築方法について検討する。
我々は、RealX-Benchや他の代表的なベンチマーク上でDeepEyesV2を評価し、実世界の理解、数学的推論、探索集約的なタスクにおけるその効果を実証した。
- 参考スコア(独自算出の注目度): 3.775371242454792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic multimodal models should not only comprehend text and images, but also actively invoke external tools, such as code execution environments and web search, and integrate these operations into reasoning. In this work, we introduce DeepEyesV2 and explore how to build an agentic multimodal model from the perspectives of data construction, training methods, and model evaluation. We observe that direct reinforcement learning alone fails to induce robust tool-use behavior. This phenomenon motivates a two-stage training pipeline: a cold-start stage to establish tool-use patterns, and reinforcement learning stage to further refine tool invocation. We curate a diverse, moderately challenging training dataset, specifically including examples where tool use is beneficial. We further introduce RealX-Bench, a comprehensive benchmark designed to evaluate real-world multimodal reasoning, which inherently requires the integration of multiple capabilities, including perception, search, and reasoning. We evaluate DeepEyesV2 on RealX-Bench and other representative benchmarks, demonstrating its effectiveness across real-world understanding, mathematical reasoning, and search-intensive tasks. Moreover, DeepEyesV2 exhibits task-adaptive tool invocation, tending to use image operations for perception tasks and numerical computations for reasoning tasks. Reinforcement learning further enables complex tool combinations and allows model to selectively invoke tools based on context. We hope our study can provide guidance for community in developing agentic multimodal models.
- Abstract(参考訳): エージェントマルチモーダルモデルは、テキストやイメージを理解するだけでなく、コード実行環境やWeb検索といった外部ツールを積極的に起動し、これらの操作を推論に統合する必要がある。
本稿では,DeepEyesV2を紹介し,データ構築,トレーニング方法,モデル評価の観点からエージェント型マルチモーダルモデルの構築方法について検討する。
直接強化学習だけでは、堅牢なツール使用行動を引き起こすことができないことを観察する。
この現象は、ツール使用パターンを確立するためのコールドスタートステージと、ツール呼び出しをさらに洗練するための強化学習ステージという、2段階のトレーニングパイプラインを動機付けている。
さまざまな、適度に困難なトレーニングデータセットをキュレートします。
実世界のマルチモーダル推論を評価するために設計された総合ベンチマークであるRealX-Benchについても紹介する。
我々は、RealX-Benchや他の代表的なベンチマーク上でDeepEyesV2を評価し、実世界の理解、数学的推論、探索集約的なタスクにおけるその効果を実証した。
さらに、DeepEyesV2はタスク適応ツールの実行を示し、イメージ操作を知覚タスクに、数値計算を推論タスクに使用する傾向にある。
強化学習はさらに複雑なツールの組み合わせを可能にし、モデルがコンテキストに基づいてツールを選択的に呼び出すことを可能にする。
我々は,エージェント型マルチモーダルモデルの開発において,コミュニティのためのガイダンスを提供することができることを願っている。
関連論文リスト
- WebSeer: Training Deeper Search Agents through Reinforcement Learning with Self-Reflection [51.10348385624784]
本稿では,自己回帰機構によって強化された強化学習によって訓練された,よりインテリジェントな検索エージェントであるWebSeerを紹介する。
提案手法はツール使用チェーンを大幅に拡張し,回答精度を向上する。
論文 参考訳(メタデータ) (2025-10-21T16:52:00Z) - Tool-Augmented Policy Optimization: Synergizing Reasoning and Adaptive Tool Use with Reinforcement Learning [29.280386584974455]
大規模言語モデル(LLM)の最近の進歩はテスト時間スケーリングを普及させ、モデルが最終回答を生成する前にさらなる推論トークンを生成する。
これらの手法は、数学的推論を含むベンチマークにおいて顕著な性能向上を示した。
本稿では,マルチホップ推論と適応型ツールコール機能を統合した新しい強化学習フレームワークであるツール拡張ポリシー最適化(TAPO)を提案する。
論文 参考訳(メタデータ) (2025-10-08T14:04:27Z) - Adaptive Tool Generation with Models as Tools and Reinforcement Learning [3.592245101862886]
MTRは、ツール強化推論のためのシミュレーションファーストのトレーニングフレームワークである。
スキーマ検証されたシミュレートされた観察で、完全なReActトレースから学習する。
MTRは、ライブAPIシステムと競合するエクサクトマッチ(EM)スコアを取得する。
論文 参考訳(メタデータ) (2025-10-08T09:48:50Z) - Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks [94.19506319646376]
本稿では,実世界のマルチモーダル環境での視覚中心エージェント評価のためのベンチマークであるAgent-Xを紹介する。
Agent-Xは、828のエージェントタスクと、イメージ、マルチイメージ比較、ビデオ、命令テキストを含む、真の視覚的コンテキストを備えている。
その結果、GPT、Gemini、Qwenファミリーを含む最高のパフォーマンスモデルでさえ、多段階視覚タスクの解決に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-30T17:59:53Z) - VisualToolAgent (VisTA): A Reinforcement Learning Framework for Visual Tool Selection [47.259066449806866]
VisTAは新しい強化学習フレームワークで、視覚エージェントが経験的パフォーマンスに基づいた多様なライブラリのツールを動的に探索し、選択し、組み合わせることを可能にする。
トレーニング不要のベースラインよりも,VisTAが大幅なパフォーマンス向上を実現していることを示す。
これらの結果は、VisTAが一般化を強化し、多様なツールを適応的に活用し、柔軟な経験駆動型視覚推論システムを実現する能力を強調している。
論文 参考訳(メタデータ) (2025-05-26T17:59:17Z) - OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning [57.89304342666846]
OpenThinkIMGは、ツール拡張LVLMのための、最初のオープンソースで包括的なエンドツーエンドフレームワークです。
本稿では,LVLMを学習し,外部視覚ツールを起動するための適応的なポリシーを学ぶための,新しい強化学習フレームワークV-ToolRLを提案する。
V-ToolRLにより、LVLMは最適なツール利用戦略を自律的に発見できる。
論文 参考訳(メタデータ) (2025-05-13T14:35:51Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - CLOVA: A Closed-Loop Visual Assistant with Tool Usage and Update [69.59482029810198]
CLOVAは、推論、リフレクション、学習フェーズを含むフレームワーク内で動作するクローズドループビジュアルアシスタントである。
その結果,CLOVAは既存のツール利用手法を5%,知識タグ付けでは10%,画像編集では20%,視覚的質問応答や複数画像推論では5%に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-18T03:34:07Z) - Towards A Unified Agent with Foundation Models [18.558328028366816]
強化学習(RL)エージェントにそのような能力を組み込んで活用する方法を検討する。
我々は、言語を中核的推論ツールとして使用するフレームワークを設計し、エージェントが一連の基本的なRL課題にどのように取り組むことができるかを探る。
探索効率とオフラインデータセットからのデータの再利用能力において,ベースラインよりも大幅にパフォーマンスが向上したことを示す。
論文 参考訳(メタデータ) (2023-07-18T22:37:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。