論文の概要: IVR-R1: Refining Trajectories through Iterative Visual-Grounded Reasoning in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.23997v1
- Date: Mon, 18 May 2026 09:53:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.451664
- Title: IVR-R1: Refining Trajectories through Iterative Visual-Grounded Reasoning in Reinforcement Learning
- Title(参考訳): IVR-R1:強化学習における反復的ビジュアルグラウンド推論による軌道修正
- Authors: Chenghao Li, Fusheng Hao, Xikai Zhang, Likang Xiao, Yanwei Ren, Fuxiang Wu, Quan Chen, Liu Liu,
- Abstract要約: 強化学習による多モーダルな大言語モデルは、複雑な視覚的推論タスクにおいて顕著な能力を示した。
現在の方法では、下流の推論を容易にするために、高次元の視覚シーンを個別のテキストプロキシにプリエンコードする。
推論軌道を補正して最適化する動的視覚再構成を導入する。
- 参考スコア(独自算出の注目度): 15.580070614790776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models via reinforcement learning (RL) have demonstrated remarkable capabilities in complex visual reasoning tasks, yet they remain limited in long-horizon multimodal scenarios, often suffering from visual hallucination and logical error. Current methods typically pre-encode high-dimensional visual scenes into discrete textual proxies to facilitate downstream reasoning. As the reasoning chain unfolds, however, the inherent information asymmetry between text and visual scenes tends to erode visual grounding, resulting in misguided reasoning and erroneous outputs. To address this issue, we introduce IVR-R1 (Iterative Visual-grounded Reasoning), a novel RL training framework that facilitates dynamic visual re-alignment that actively rectifies reasoning trajectories to guide policy optimization. Specifically, by leveraging a reward-driven screening mechanism to identify flawed rollouts, IVR-R1 executes a fine-grained, step-level error attribution within the multimodal context. By iteratively cross-referencing intermediate reasoning states against pristine visual priors, a Re-Reasoning Loop enables automated trajectory rectification, effectively synthesizing expert-level demonstrations that serve as high-fidelity reasoning templates for the policy model. Our experiments across diverse multimodal benchmarks demonstrate that IVR-R1 consistently outperforms existing reinforcement learning methods, establishing a superior paradigm for maintaining logical and visual consistency in complex multimodal reasoning.
- Abstract(参考訳): 強化学習(RL)による多モーダル大言語モデルは、複雑な視覚的推論タスクにおいて顕著な能力を示してきたが、長い水平多モーダルシナリオにおいては、視覚幻覚や論理的誤りに悩まされることが多い。
現在の方法は通常、下流の推論を容易にするために、高次元の視覚シーンを個別のテキストプロキシにプリエンコードする。
しかし、推論連鎖が広がるにつれて、テキストと視覚シーン間の固有情報非対称性は視覚的接地を損なう傾向にあり、誤った推論と誤った出力をもたらす。
IVR-R1(Iterative Visual-grounded Reasoning, IVR-R1)は動的視覚再構成を支援する新しいRLトレーニングフレームワークである。
具体的には、欠陥のあるロールアウトを特定するために報酬駆動のスクリーニング機構を活用することで、IVR-R1はマルチモーダルコンテキスト内で、きめ細かいステップレベルのエラー属性を実行する。
原始的な視覚的先行に対する中間推論状態を反復的に参照することにより、Re-Reasoning Loopは自動軌道修正を可能にし、ポリシーモデルの高忠実な推論テンプレートとして機能する専門家レベルの実証を効果的に合成する。
多様なマルチモーダルベンチマークを用いた実験により、IVR-R1は既存の強化学習法より一貫して優れており、複雑なマルチモーダル推論における論理的・視覚的整合性を維持するための優れたパラダイムが確立されている。
関連論文リスト
- Faithful-MR1: Faithful Multimodal Reasoning via Anchoring and Reinforcing Visual Attention [41.546578522790114]
検証可能な報奨付き強化学習(RLVR)は,大規模言語モデルにおける複雑な推論を促進するための有望なパラダイムとして登場した。
忠実なマルチモーダル推論の両面に対処するために,視覚的注意を固定し,強化するトレーニングフレームワークであるFithful-MR1を提案する。
論文 参考訳(メタデータ) (2026-05-21T07:10:18Z) - Enhancing Multimodal In-Context Learning via Inductive-Deductive Reasoning [65.15766304205657]
In-context Learning (ICL) は、大規模なモデルをいくつかの例を使ってタスクに適応させるが、視覚言語モデル(VLM)への拡張は脆弱である。
我々の分析によると、基本的な限界は帰納的ギャップにあり、モデルはしばしば欠陥のある推論から正しい答えを導き出す。
帰納的帰納的プロセスとしてマルチモーダル ICL を再構成する枠組みを導入する。
論文 参考訳(メタデータ) (2026-05-04T09:18:19Z) - V-tableR1: Process-Supervised Multimodal Table Reasoning with Critic-Guided Policy Optimization [30.74548183895207]
マルチモーダル大規模言語モデル(MLLM)から厳密で検証可能な推論を導くプロセス教師付き強化学習フレームワークであるV-tableR1を紹介する。
V-tableR1は、ポリシーVLMによって生成される明示的な視覚的連鎖について、厳密で段階的なフィードバックを提供するために、特別な批評家のVLMを使用している。
V-tableR1は視覚幻覚とショートカットの推測を明示的に罰する。
論文 参考訳(メタデータ) (2026-04-22T16:44:33Z) - Walk the Talk: Bridging the Reasoning-Action Gap for Thinking with Images via Multimodal Agentic Policy Optimization [89.68681087743876]
MLLM(Multimodal Large Language Models)は,マルチターン推論において視覚ツールを積極的に呼び出すことによって,イメージで考えるモデルにインセンティブを与えている。
結果に基づく報酬を頼りにする一般的な強化学習の実践は、テキストの妥当性が経営幹部の失敗を隠蔽するという事実を無視します。
マルチモーダルエージェントポリシー最適化(MAPO)を導入し、テキスト推論とモデルが生成する視覚行動のギャップを埋める。
論文 参考訳(メタデータ) (2026-04-08T07:48:07Z) - Beyond Where to Look: Trajectory-Guided Reinforcement Learning for Multimodal RLVR [30.94808389410323]
Trajectory-Guided Reinforcement Learningは、視覚的証拠をきめ細かな推論プロセスに統合するためのポリシーモデルを導く。
複数のマルチモーダル推論ベンチマークの実験は、TGRLが一貫して推論性能を改善することを示した。
論文 参考訳(メタデータ) (2026-03-27T07:18:18Z) - Perception-Aware Multimodal Spatial Reasoning from Monocular Images [57.42071289037214]
単眼画像からの空間的推論は 自律運転には不可欠です
現在のヴィジュアルランゲージモデル(VLM)は、微粒な幾何学的知覚に苦慮している。
本稿では,VLMを明示的な対象中心の接地能力を持つ知覚認識型マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T02:05:12Z) - Interleaved Latent Visual Reasoning with Selective Perceptual Modeling [42.93438443502933]
インターリーブ推論パラダイムは視覚フィードバックでマルチモーダル大言語モデル(MLLM)を強化するが、計算コストの禁止によって妨げられる。
有望な代替手段である、潜伏した視覚的推論は、このボトルネックを回避しますが、現在、重要なトレードオフを強制しています。
IVR(Interleaved Latent Visual Reasoning)は、動的状態の進化を正確に知覚モデリングと統合するフレームワークである。
論文 参考訳(メタデータ) (2025-12-05T12:09:39Z) - Reasoning-Aligned Perception Decoupling for Scalable Multi-modal Reasoning [95.44766931218896]
MLLM(Multi-modal large language model)は、テキストベースの推論に遅れを取っている。
本稿では,MLLMの推論コンポーネントをモジュール化し,容易に置き換え可能なパーセプション推論デカップリングを提案する。
本稿では,視覚知覚最適化(VPO)と呼ばれる新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-05T02:28:07Z) - Ground-R1: Incentivizing Grounded Visual Reasoning via Reinforcement Learning [96.01617809845396]
Ground-R1は、明示的なエビデンスや合理的アノテーションを必要とせずに、基礎的な視覚的推論を可能にする強化学習フレームワークである。
グラウンドR1は優れた性能を示し、不確実性認識、空間認識、反復的洗練などの創発的な認知行動を示す。
論文 参考訳(メタデータ) (2025-05-26T17:51:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。