Fugu-MT 論文翻訳(概要): Beyond Where to Look: Trajectory-Guided Reinforcement Learning for Multimodal RLVR

論文の概要: Beyond Where to Look: Trajectory-Guided Reinforcement Learning for Multimodal RLVR

arxiv url: http://arxiv.org/abs/2603.26126v1
Date: Fri, 27 Mar 2026 07:18:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-30 21:49:48.382024
Title: Beyond Where to Look: Trajectory-Guided Reinforcement Learning for Multimodal RLVR
Title（参考訳）: 視界を超えて:マルチモーダルRLVRのための軌道誘導強化学習
Authors: Jinda Lu, Junkang Wu, Jinghan Li, Kexin Huang, Shuo Yang, Mingzhu Chen, Jiancan Wu, Kuien Liu, Xiang Wang,
Abstract要約: Trajectory-Guided Reinforcement Learningは、視覚的証拠をきめ細かな推論プロセスに統合するためのポリシーモデルを導く。複数のマルチモーダル推論ベンチマークの実験は、TGRLが一貫して推論性能を改善することを示した。
参考スコア（独自算出の注目度）: 30.94808389410323
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in Reinforcement Learning with Verifiable Rewards (RLVR) for multimodal large language models (MLLMs) have mainly focused on improving final answer correctness and strengthening visual grounding. However, a critical bottleneck remains: although models can attend to relevant visual regions, they often fail to effectively incorporate visual evidence into subsequent reasoning, leading to reasoning chains that are weakly grounded in visual facts. To address this issue, we propose Trajectory-Guided Reinforcement Learning (TGRL), which guides the policy model to integrate visual evidence into fine-grained reasoning processes using expert reasoning trajectories from stronger models. We further introduce token-level reweighting and trajectory filtering to ensure stable and effective policy optimization. Extensive experiments on multiple multimodal reasoning benchmarks demonstrate that TGRL consistently improves reasoning performance and effectively bridges the gap between visual perception and logical reasoning.
Abstract（参考訳）: マルチモーダルな大言語モデル(MLLM)のためのRLVR(Reinforcement Learning with Verifiable Rewards)の最近の進歩は、最終回答の正しさの向上と視覚的接地強化に重点を置いている。しかし、重要なボトルネックは残る:モデルが関連する視覚領域に参加することができるが、視覚的証拠を後続の推論に効果的に組み込むことができず、視覚的事実に弱く根ざした推論連鎖に繋がる。この問題に対処するために,より強力なモデルからのエキスパート推論軌跡を用いて,視覚的証拠をきめ細かな推論プロセスに統合するための政策モデルであるトラジェクティブガイド強化学習(TGRL)を提案する。さらにトークンレベルの再重み付けとトラジェクトリフィルタリングを導入し、安定かつ効果的なポリシー最適化を実現する。複数のマルチモーダル推論ベンチマークに対する大規模な実験により、TGRLは推論性能を一貫して改善し、視覚知覚と論理推論のギャップを効果的に橋渡しすることを示した。

関連論文リスト

Reflect to Inform: Boosting Multimodal Reasoning via Information-Gain-Driven Verification [55.357038267439684]
Visual Re-Examination (VRE)は、MLLMが視覚的な入力を追加することなく推論中に自律的に視覚的イントロスペクションを実行することができる自己進化型トレーニングフレームワークである。 VREは推論精度と知覚信頼性を継続的に改善し、特にロングチェーン環境では幻覚を著しく低減する。
論文参考訳（メタデータ） (2026-03-27T12:22:13Z)
Bridging Perception and Reasoning: Token Reweighting for RLVR in Multimodal LLMs [51.60575965819268]
本稿では,この相互依存を明示的にモデル化するToken-Reweighting(ToR)戦略を提案する。 ToRは複数のマルチモーダル推論ベンチマークで一貫したパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2026-03-26T06:25:27Z)
Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought [73.39221516441624]
マルチモーダル・チェーン・オブ・ソート(CoT)推論は、推論軌道を構築するために大きな視覚言語モデルを必要とする。既存のReinforcement Learning with Verifiable Rewards (RLVR) 法は、様々な視覚的接地度を区別することなく、CoTを均一に扱う。本稿では,隠れ状態の類似性に先立って認識を導き,トークンのエントロピーと統合する知覚探索ポリシー最適化(PEPO)を提案する。
論文参考訳（メタデータ） (2026-03-24T06:38:00Z)
See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs [24.90876091319589]
視覚的マルチモーダル推論のための反復的,トレーニング不要,プラグアンドプレイフレームワークを提案する。私たちのキーとなるアイデアは、視覚的なエビデンスでテスト時の各推論ステップを監督することです。本手法はTreeBenchを16.5%-29.5%改善し,RH-AUCを13.7%向上させる。
論文参考訳（メタデータ） (2026-02-25T02:13:59Z)
Do MLLMs Really See It: Reinforcing Visual Attention in Multimodal LLMs [55.61018839017648]
CoT(Chain-of- Thought)推論は、複雑な推論タスクにおいて、MLLM(Multimodal large language model)を大幅に改善した。既存のアプローチは、主に長いテキスト推論軌道に依存し、安定した視覚的注意ポリシーを学ぶための限られたメカニズムを提供する。地域レベルの視覚的注意に基づく報酬を導入する強化学習フレームワークを用いて訓練された視覚的推論モデルであるSAYOを提案する。
論文参考訳（メタデータ） (2026-02-09T03:33:23Z)
V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval [32.5242219186118]
本稿では,視覚検査に基づくエージェント推論プロセスとしてマルチモーダル検索を再構成するエビデンス駆動検索フレームワークであるV-Retrverを提案する。 V-Retrverは、MLLMが外部視覚ツールを介して推論中に視覚的エビデンスを選択的に取得し、仮説生成と対象の視覚的検証を交互に行うマルチモーダル・インターリーブド推論プロセスを実行することを可能にする。
論文参考訳（メタデータ） (2026-02-05T18:59:21Z)
Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。 Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文参考訳（メタデータ） (2025-03-31T17:55:23Z)
OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。 OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文参考訳（メタデータ） (2025-03-21T17:52:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。