論文の概要: High-Resolution Visual Reasoning via Multi-Turn Grounding-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.05920v1
- Date: Tue, 08 Jul 2025 12:05:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.034805
- Title: High-Resolution Visual Reasoning via Multi-Turn Grounding-Based Reinforcement Learning
- Title(参考訳): マルチターングラウンドベース強化学習による高分解能視覚推論
- Authors: Xinyu Huang, Yuhao Dong, Weiwei Tian, Bo Li, Rui Feng, Ziwei Liu,
- Abstract要約: 最先端の大規模マルチモーダルモデル (LMM) は高解像度画像処理において課題に直面している。
本稿では,多ターン接地型政策最適化(MGPO)を提案する。
MGPOは、LMMが自動的にサブイメージをトリミングすることで、鍵となる視覚領域に反復的に焦点を合わせることを可能にする。
- 参考スコア(独自算出の注目度): 43.8114307203968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art large multi-modal models (LMMs) face challenges when processing high-resolution images, as these inputs are converted into enormous visual tokens, many of which are irrelevant to the downstream task. In this paper, we propose Multi-turn Grounding-based Policy Optimization (MGPO), an end-to-end reinforcement learning (RL) framework that enables LMMs to iteratively focus on key visual regions by automatically cropping sub-images, based on model-predicted grounding coordinates within a multi-turn conversation framework. Compared to supervised fine-tuning (SFT), which requires costly additional grounding annotations, our approach highlights that LMMs can emerge robust grounding abilities during the RL training process, leveraging only a binary reward function derived from the correctness of the final answer. Additionally, we observe that LMMs struggle to autonomously trigger visual grounding during the rollout process. To address this cold start problem, we design a multi-turn conversational template and restrict policy loss computation to model outputs generated across multiple dialogue rounds, thereby promoting stable optimization. Extensive experiments demonstrate that, when trained on standard visual-question-short answering data without grounding annotations, MGPO effectively elicits stronger grounding capabilities compared to GRPO, leading to 5.4\% improvement on in-distribution MME-Realworld and 5.2\% improvement on the challenging out-of-distribution (OOD) V* Bench. Notably, MGPO post-training on Qwen2.5-VL-7B with 21K samples surpasses OpenAI's o1 and GPT-4o models on the OOD V* Bench. Codes are available at https://github.com/EvolvingLMMs-Lab/MGPO.
- Abstract(参考訳): 最先端の大規模マルチモーダルモデル(LMM)は、高解像度画像を処理する際に、これらの入力が巨大な視覚トークンに変換されるため、課題に直面している。
本稿では,LMMが多ターン会話フレームワーク内のモデル予測グラウンド座標に基づいて,サブイメージを自動的に抽出することにより,鍵視覚領域に反復的に焦点を合わせることが可能な,多ターングラウンドベースポリシー最適化(MGPO)を提案する。
教師付き微調整(SFT)と比較して,LMMは最終回答の正しさから得られる二項報酬関数のみを活用することにより,RLトレーニングプロセス中に頑健な基礎的能力を発揮できることが示唆された。
さらに,LMMはロールアウトプロセス中に視覚的接地を自律的に引き起こすのに苦労している。
このコールドスタート問題に対処するため、我々はマルチターン対話テンプレートを設計し、ポリシー損失計算を複数の対話ラウンドで生成されたモデル出力に制限し、安定した最適化を促進する。
広汎な実験により、標準の視覚的クェリショート応答データに基づいて、アノテーションを接地せずに訓練すると、MGPOはGRPOよりも強力な接地能力を持つことが示され、5.4 %の分布内 MME-Realworld の改善、5.2 %の分布外 V* Bench が達成された。
特に、21KサンプルのQwen2.5-VL-7BでのMGPOのポストトレーニングは、OOD V*ベンチのOpenAIのo1とGPT-4oモデルを上回る。
コードはhttps://github.com/EvolvingLMMs-Lab/MGPOで公開されている。
関連論文リスト
- Improving the Reasoning of Multi-Image Grounding in MLLMs via Reinforcement Learning [28.95877614294155]
MLLM(Multimodal Large Language Models)は、テキスト参照を持つ単一画像シナリオにおいて、視覚的グラウンド化に優れる。
しかし、それらの性能は、複雑なマルチイメージ合成とマルチモーダル命令を含む実世界のアプリケーションを扱う際に低下する。
我々は、強化学習に基づくポストトレーニング戦略を採用し、マルチイメージグラウンドタスクにおけるMLLMの推論性能を改善する。
論文 参考訳(メタデータ) (2025-07-01T13:48:57Z) - Unsupervised Post-Training for Multi-Modal LLM Reasoning via GRPO [25.288796606275973]
MLLMの教師なし後学習のための簡易かつ効果的なフレームワークであるMM-UPTを提案する。
MM-UPTはGRPO上に構築され、従来の報酬信号を複数のサンプル応答に対する多数決に基づく自己回帰機構に置き換える。
実験により,MM-UPTはQwen2.5-VL-7Bの推論能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-05-28T15:11:16Z) - Chain-of-Focus: Adaptive Visual Search and Zooming for Multimodal Reasoning via RL [70.1326027641056]
視覚言語モデル(VLM)は、様々なコンピュータビジョンタスクにおいて印象的な性能を達成している。
本稿では,キー画像領域に適応的な焦点付けとズームインを行うことができるChain-of-Focus(CoF)手法を提案する。
教師付き微調整と強化学習を含む2段階の訓練パイプラインを提案する。
論文 参考訳(メタデータ) (2025-05-21T12:18:15Z) - Modality-Balancing Preference Optimization of Large Multimodal Models by Adversarial Negative Mining [66.54211199959298]
LMMにおけるモダリティの不均衡に対処するため、新しい選好学習フレームワークMBPOを提案する。
MBPOは、強い負の反応、すなわちLLMバイアスによって誤った反応を生成することによって、より効果的なオフライン嗜好データセットを構築する。
視覚言語課題におけるLMM性能を高め、幻覚を効果的に軽減することができる。
論文 参考訳(メタデータ) (2025-05-20T03:59:05Z) - Observe-R1: Unlocking Reasoning Abilities of MLLMs with Dynamic Progressive Reinforcement Learning [3.364797975300393]
マルチモーダル大規模言語モデル(MLLM)の推論能力向上を目的とした新しいフレームワークであるObserve-R1を提案する。
我々は,RL学習におけるデータサンプルの難易度と難易度に応じて整理し,サンプル化したNeuraLadderデータセットを構築した。
Qwen2.5-VL-3B と Qwen2.5-VL-7B のニューララダーデータセットから得られた20kサンプルによる実験により、Observe-R1 は推論と一般的なベンチマークの両方において、より大きな推論モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-18T14:08:03Z) - Multimodal Preference Data Synthetic Alignment with Reward Model [23.978820500281213]
本稿では,DPOトレーニングによる効果的なマルチモーダルアライメントのための人選好のプロキシとして,報酬モデルを用いて合成データを生成する新しいフレームワークを提案する。
実験結果から、生成モデルや報酬モデルのような選択された合成データの統合は、人手による注釈付きデータへの依存を効果的に軽減できることが示された。
論文 参考訳(メタデータ) (2024-12-23T09:29:40Z) - VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models [63.27511432647797]
VLsI: Verbalized Layers-to-Interactions, a new VLM family in 2B and 7B model size。
GPT-4Vよりも優れた性能向上(2Bは11.0%、7Bは17.4%)を達成した。
論文 参考訳(メタデータ) (2024-12-02T18:58:25Z) - Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-11-23T08:06:06Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。