論文の概要: MIRG-RL: Multi-Image Reasoning and Grounding with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.21788v1
- Date: Fri, 26 Sep 2025 02:43:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.13556
- Title: MIRG-RL: Multi-Image Reasoning and Grounding with Reinforcement Learning
- Title(参考訳): MIRG-RL:強化学習によるマルチイメージ推論とグラウンド化
- Authors: Lihao Zheng, Jiawei Chen, Xintian Shen, Hao Ma, Tao Wei,
- Abstract要約: 現在、LVLM(Large Visual Language Models)は2つの重要な課題に直面している。
強化学習によるマルチイメージ推論とグラウンド化(MIRG-RL)の統一フレームワークを提案する。
具体的には、教師付き微調整と注釈付き軌跡と画像認識強化学習最適化を組み合わせた2段階の訓練パラダイムを提案する。
- 参考スコア(独自算出の注目度): 10.049259114211663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-image reasoning and grounding require understanding complex cross-image relationships at both object levels and image levels. Current Large Visual Language Models (LVLMs) face two critical challenges: the lack of cross-image reasoning capabilities and insufficient cross-image reference reward modeling. To address these issues, we propose a unified framework - Multi-Image Reasoning and Grounding with Reinforcement Learning (MIRG-RL). Specifically, our two-stage training paradigm combines supervised fine-tuning with annotated trajectories and image-aware reinforcement learning optimization, progressively developing multi-image reasoning capabilities. Furthermore, we innovatively propose a method for constructing the trajectory data, which integrates object-level and image-level annotation information, and use this method to generate a lightweight reasoning-enhanced dataset. To effectively resolve cross-image ambiguities, we design an image-aware RL policy with dual reward functions for objects and images. Experiments demonstrate that MIRG-RL achieves state-of-the-art (SOTA) performance in multi-image grounding benchmarks, attaining 64.82% on cross-image reasoning tasks - exceeding the previous best method by 1%. The code and dataset have been released at https://github.com/ZEUS2035/MIRG-RL.
- Abstract(参考訳): マルチイメージ推論とグラウンド推論は、オブジェクトレベルとイメージレベルの両方において複雑なクロスイメージ関係を理解する必要がある。
現在、LVLM(Large Visual Language Models)は2つの重要な課題に直面している。
これらの課題に対処するため,MIRG-RL(Multi-Image Reasoning and Grounding with Reinforcement Learning)という統合フレームワークを提案する。
具体的には、教師付き微調整と注釈付き軌跡と画像認識強化学習最適化を組み合わせて、段階的にマルチイメージ推論機能を開発する。
さらに,オブジェクトレベルのアノテーション情報と画像レベルのアノテーション情報を統合するトラジェクトリデータ構築手法を革新的に提案し,この手法を用いて軽量な推論型データセットを生成する。
画像間のあいまいさを効果的に解決するために,オブジェクトや画像に対して2つの報酬関数を持つ画像認識型RLポリシーを設計する。
実験により、MIRG-RLはマルチイメージグラウンドのベンチマークで最先端(SOTA)のパフォーマンスを達成し、64.82%のクロスイメージ推論タスクを達成した。
コードとデータセットはhttps://github.com/ZEUS2035/MIRG-RLでリリースされた。
関連論文リスト
- RL-RIG: A Generative Spatial Reasoner via Intrinsic Reflection [18.52946282633359]
RL-RIGは、リフレクションベースの画像生成のための強化学習フレームワークである。
我々は,VLMアクタにプロンプトを編集するためのReflection-GRPOと,与えられたプロンプト下での画質向上のためのイメージエディタを開発する。
実験結果から,RL-RIGは既存のオープンソースモデルよりも最大11%優れており,画像生成における空間的推論の制御が可能であることが示唆された。
論文 参考訳(メタデータ) (2026-02-23T15:39:53Z) - More Images, More Problems? A Controlled Analysis of VLM Failure Modes [80.64323947730905]
大規模視覚言語モデル (LVLM) は目覚ましい能力を示しているが、複数の画像に対する理解と推論の能力は未解明のままである。
LVLMのマルチイメージ能力を厳格に評価する新しいベンチマークMIMICを紹介する。
論文 参考訳(メタデータ) (2026-01-12T18:45:13Z) - GeM-VG: Towards Generalized Multi-image Visual Grounding with Multimodal Large Language Models [30.759062684007873]
MLLM(Multimodal Large Language Models)は、単一画像のグラウンド化と一般的な多画像理解において、目覚ましい進歩を見せている。
一般化されたマルチイメージの視覚的グラウンド化が可能なMLLMであるGeM-VGを提案する。
論文 参考訳(メタデータ) (2026-01-08T09:58:35Z) - Training Multi-Image Vision Agents via End2End Reinforcement Learning [51.81337984526068]
我々は、エンドツーエンドの強化学習によって訓練されたオープンソースの視覚エージェントであるIMAgentを提案する。
マルチエージェントシステムを利用することで、困難かつ視覚的にリッチなマルチイメージQAペアを生成する。
我々は、視覚的反射と確認のための2つの特別なツールを開発し、モデルが積極的に画像コンテンツに注意を向けることを可能にする。
論文 参考訳(メタデータ) (2025-12-05T10:02:38Z) - PeRL: Permutation-Enhanced Reinforcement Learning for Interleaved Vision-Language Reasoning [50.21619363035618]
本稿では,マルチモーダルタスクのインターリーブに適した汎用強化学習手法PeRLを提案する。
空間的および位置的多様性を探索するために、様々な位置関係をシミュレートするために、画像列の置換を導入する。
実験の結果,PeRLのトレーニングモデルは,VLMベースラインを大きなマージンで,R1関連およびインターリーブしたVLMベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2025-06-17T18:25:56Z) - Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models [79.59567114769513]
複数の画像に対して自由かつ正確なグラウンド化を行うことができる最初のマルチイメージグラウンドモデルであるMigicianを紹介する。
我々のモデルは、より優れたマルチイメージグラウンド機能を実現し、最高のMLLMを24.94%上回り、さらに大きな70Bモデルを超えた。
論文 参考訳(メタデータ) (2025-01-10T07:56:23Z) - RL-I2IT: Image-to-Image Translation with Deep Reinforcement Learning [54.40719981158774]
画像から画像への変換(I2IT)手法は,ディープラーニング(DL)モデルの単一実行時に画像を生成する。
深部強化学習(DRL)によるステップワイド意思決定問題としてI2ITを再構成する。
RLベースのI2IT(RL-I2IT)を実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-24T15:40:40Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - DDet: Dual-path Dynamic Enhancement Network for Real-World Image
Super-Resolution [69.2432352477966]
実画像超解像(Real-SR)は、実世界の高分解能画像(HR)と低分解能画像(LR)の関係に焦点を当てている。
本稿では,Real-SRのためのデュアルパス動的拡張ネットワーク(DDet)を提案する。
特徴表現のための大規模な畳み込みブロックを積み重ねる従来の手法とは異なり、非一貫性のある画像対を研究するためのコンテンツ認識フレームワークを導入する。
論文 参考訳(メタデータ) (2020-02-25T18:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。