論文の概要: Training Multi-Image Vision Agents via End2End Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.08980v1
- Date: Fri, 05 Dec 2025 10:02:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.241796
- Title: Training Multi-Image Vision Agents via End2End Reinforcement Learning
- Title(参考訳): End2End強化学習によるマルチイメージ視覚エージェントの訓練
- Authors: Chengqi Dong, Chuhuai Yue, Hang He, Rongge Mao, Fenghe Tang, S Kevin Zhou, Zekun Xu, Xiaohan Wang, Jiajun Chai, Wei Lin, Guojun Yin,
- Abstract要約: 我々は、エンドツーエンドの強化学習によって訓練されたオープンソースの視覚エージェントであるIMAgentを提案する。
マルチエージェントシステムを利用することで、困難かつ視覚的にリッチなマルチイメージQAペアを生成する。
我々は、視覚的反射と確認のための2つの特別なツールを開発し、モデルが積極的に画像コンテンツに注意を向けることを可能にする。
- 参考スコア(独自算出の注目度): 51.81337984526068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent VLM-based agents aim to replicate OpenAI O3's ``thinking with images" via tool use, but most open-source methods limit input to a single image, falling short on real-world multi-image QA tasks. To address this, we propose IMAgent, an open-source vision agent trained via end-to-end reinforcement learning dedicated for complex multi-image tasks. By leveraging a multi-agent system, we generate challenging and visually-rich multi-image QA pairs to fully activate the tool-use potential of the base VLM. Through manual verification, we obtain MIFG-QA, comprising 10k samples for training and evaluation. With deeper reasoning steps, VLMs may increasingly ignore visual inputs. We therefore develop two specialized tools for visual reflection and confirmation, allowing the model to proactively reallocate its attention to image content during inference. Benefiting from our well-designed action-trajectory two-level mask strategy, IMAgent achieves stable tool use behavior via pure RL training without requiring costly supervised fine-tuning data. Extensive experiments demonstrate that IMAgent maintains strong performance on existing single-image benchmarks while achieving substantial improvements on our proposed multi-image dataset, with our analysis providing actionable insights for the research community. Codes and data will be released soon.
- Abstract(参考訳): 最近のVLMベースのエージェントは、ツール使用を通じてOpenAI O3の ‘thinking with images’ を複製することを目標としているが、ほとんどのオープンソースメソッドは単一のイメージへの入力を制限しており、実世界のマルチイメージQAタスクでは不足している。
そこで我々は,複雑なマルチイメージタスク専用のエンドツーエンド強化学習を通じて学習した,オープンソースの視覚エージェントであるIMAgentを提案する。
マルチエージェントシステムを利用することで、困難かつ視覚的にリッチなマルチイメージQAペアを生成し、ベースVLMのツール使用電位を完全に活性化する。
手動検証により、トレーニングと評価のための10kサンプルからなるMIFG-QAを得る。
より深い推論ステップにより、VLMは視覚的な入力を無視する可能性がある。
そこで我々は、視覚的反射と確認のための2つの特殊なツールを開発し、モデルが推論中に画像コンテンツに積極的に注意を向けることを可能にする。
IMAgentは、よく設計されたアクショントラジェクトリの2レベルマスク戦略から恩恵を受け、コストのかかる微調整データを必要とせずに、純粋なRLトレーニングを通じて安定したツール使用行動を達成する。
大規模な実験により、IMAgentは既存のシングルイメージベンチマークで高いパフォーマンスを維持しつつ、提案したマルチイメージデータセットを大幅に改善し、研究コミュニティに実用的な洞察を提供することができた。
コードとデータはまもなくリリースされる。
関連論文リスト
- DeepEyesV2: Toward Agentic Multimodal Model [3.775371242454792]
エージェントマルチモーダルモデルは、テキストやイメージを理解するだけでなく、コード実行環境やWeb検索といった外部ツールを積極的に起動し、これらの操作を推論に統合する必要がある。
本稿では,DeepEyesV2を導入し,データ構築,トレーニング方法,モデル評価の観点からエージェント型マルチモーダルモデルの構築方法について検討する。
我々は、RealX-Benchや他の代表的なベンチマーク上でDeepEyesV2を評価し、実世界の理解、数学的推論、探索集約的なタスクにおけるその効果を実証した。
論文 参考訳(メタデータ) (2025-11-07T14:31:20Z) - PeRL: Permutation-Enhanced Reinforcement Learning for Interleaved Vision-Language Reasoning [50.21619363035618]
本稿では,マルチモーダルタスクのインターリーブに適した汎用強化学習手法PeRLを提案する。
空間的および位置的多様性を探索するために、様々な位置関係をシミュレートするために、画像列の置換を導入する。
実験の結果,PeRLのトレーニングモデルは,VLMベースラインを大きなマージンで,R1関連およびインターリーブしたVLMベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2025-06-17T18:25:56Z) - Visual Agentic Reinforcement Fine-Tuning [73.37007472426299]
この研究は、大規模視覚言語モデル(LVLM)における柔軟な適応推論能力を実現するための視覚エージェント強化細調整(Visual-ARFT)の有効性を強調した。
Visual-ARFTによって、オープンソースのLVLMは、リアルタイム情報更新のためのWebサイトをブラウズし、コードを書き、トリミング、回転、その他の画像処理技術を通じて入力画像を操作および解析することが可能になる。
実験の結果,Visual-ARFT は MAT-Coding で +18.6% F1 / +13.0% EM ,MAT-Search で +10.3% F1 / +8.7% EM で,ベースラインを+18.6% F1 / +13.0% EM で上回ることがわかった。
論文 参考訳(メタデータ) (2025-05-20T11:59:25Z) - OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning [57.89304342666846]
OpenThinkIMGは、ツール拡張LVLMのための、最初のオープンソースで包括的なエンドツーエンドフレームワークです。
本稿では,LVLMを学習し,外部視覚ツールを起動するための適応的なポリシーを学ぶための,新しい強化学習フレームワークV-ToolRLを提案する。
V-ToolRLにより、LVLMは最適なツール利用戦略を自律的に発見できる。
論文 参考訳(メタデータ) (2025-05-13T14:35:51Z) - TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。
モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。
このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - Vision Learners Meet Web Image-Text Pairs [32.36188289972377]
本研究では,ノイズの多いWebソースと画像テキストのペアデータに対する自己教師付き事前学習について検討する。
マスク付きトレーニング目標を用いたシングルモーダルトレーニングや,画像テキストコンストラシティブトレーニングを用いたマルチモーダルトレーニングなど,さまざまな手法を比較した。
我々は、スケーラブルなWebソース画像テキストデータから学習する新しいビジュアル表現事前学習手法MUlti-modal Generator(MUG)を提案する。
論文 参考訳(メタデータ) (2023-01-17T18:53:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。