論文の概要: MIRL: Mutual Information-Guided Reinforcement Learning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2605.01520v1
- Date: Sat, 02 May 2026 16:21:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.818092
- Title: MIRL: Mutual Information-Guided Reinforcement Learning for Vision-Language Models
- Title(参考訳): MIRL:視覚言語モデルのための相互情報誘導強化学習
- Authors: Yin Zhang, Jiaxuan Zhao, Zonghan Wu, Zengxiang Li, Junfeng Fang, Kun Wang, Qingsong Wen, Yilei Shao,
- Abstract要約: Reinforcement Learning with Verifiable Rewards (RLVR)は、回答の正当性信号を用いてポリシーを最適化することで、有望なソリューションを提供する。
我々は、生成した記述と視覚入力の相互情報(MI)を安価な事前スクリーニング信号として利用することにより、両方の制約に対処する分離されたフレームワークであるMIRLを紹介する。
6つの視覚言語推論ベンチマークの実験により、MIRLの平均精度は70.22%に達した。
- 参考スコア(独自算出の注目度): 46.54440573184562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) frequently suffer from visual perception errors and hallucinations that compromise answer accuracy in complex reasoning tasks. Reinforcement Learning with Verifiable Rewards (RLVR) offers a promising solution by optimizing policies using answer correctness signals. Despite their effectiveness, prevailing RLVR methods face two critical limitations. First, much of the sampling budget is wasted on trajectories doomed to fail due to early visual description errors. Second, sparse rewards cannot distinguish whether failures stem from visual perception or reasoning stages. We introduce MIRL, a decoupled framework that addresses both limitations by leveraging mutual information (MI) between generated descriptions and visual inputs as a cheap pre-screening signal. This enables intelligent budget allocation toward high-potential trajectories via forking, while decoupled training provides independent MI-based rewards for visual perception optimization, resolving reward blindness. Experiments on six vision-language reasoning benchmarks demonstrate that MIRL achieves 70.22% average accuracy and successfully surpasses the performance of sampling 16 complete trajectories using only 10 pre-samples with top-6 selection (25% fewer complete trajectories). Our code is available at: https://anonymous.4open.science/r/mirl-main/.
- Abstract(参考訳): VLM(Vision-Language Models)は、複雑な推論タスクにおいて、解答の精度を損なう視覚的認識誤差や幻覚にしばしば悩まされる。
Reinforcement Learning with Verifiable Rewards (RLVR)は、回答の正当性信号を用いてポリシーを最適化することで、有望なソリューションを提供する。
その効果にもかかわらず、一般的なRLVR法は2つの限界に直面している。
第一に、サンプリング予算の大部分は、初期の視覚的記述エラーによって失敗する運命にある軌跡に費やされる。
第二に、スパース報酬は、失敗が視覚的知覚または推論段階に起因するかどうかを区別できない。
我々は、生成した記述と視覚入力の相互情報(MI)を安価な事前スクリーニング信号として利用することにより、両方の制約に対処する分離されたフレームワークであるMIRLを紹介する。
これにより、フォキングによる高電位軌道へのインテリジェントな予算配分が可能となり、非結合トレーニングは、視覚的知覚最適化のためのMIベースの独立した報酬を提供し、報酬の盲点を解消する。
6つの視覚言語推論ベンチマークの実験では、MIRLは平均精度70.22%に達し、トップ6選択の10個の事前サンプル(25%少ない完全軌道)を使用して16個の完全な軌道をサンプリングする性能を達成している。
私たちのコードは、https://anonymous.4open.science/r/mirl-main/で利用可能です。
関連論文リスト
- From Sight to Insight: Improving Visual Reasoning Capabilities of Multimodal Models via Reinforcement Learning [12.548754243700657]
マルチモーダルな大言語モデル(MLLM)は、視覚情報の統合に欠ける推論を生成する。
このようなタスクにおいて視覚的知覚が重要なボトルネックであることを示し、クロード3.5では26.7%、クロード3.7では23.6%の利得を得た。
我々は,イメージ理解,思考ステップ,回答精度など,異なる推論的側面を対象とする6つの報酬関数を設計・評価する。
Qwen-2.5-VL-7Bの実験では、ベースモデルよりも5.56%改善されており、ドメイン内設定とドメイン外設定の両方で一貫して改善されている。
論文 参考訳(メタデータ) (2026-01-01T05:19:28Z) - VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning [62.09195763860549]
検証可能な報酬(RLVR)による強化学習は、大きな言語モデル(LLM)の推論を改善するが、探索に苦労する。
出力(テキスト)から入力(視覚)空間へ探索をシフトする新しい手法である$textbfVOGUE(Visual Uncertainty Guided Exploration)を紹介した。
本研究は,視覚入力の本質的不確実性における基盤探索が,マルチモーダル推論を改善するための効果的な戦略であることを示す。
論文 参考訳(メタデータ) (2025-10-01T20:32:08Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Reflective Instruction Tuning: Mitigating Hallucinations in Large Vision-Language Models [36.119299938503936]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて有望な性能を示す。
幻覚に敏感であり、視覚内容や指示と不一致な出力を生成する。
本稿では,理科学習を視覚的指導調律に統合した反射的指導調律を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:32:45Z) - Detecting and Preventing Hallucinations in Large Vision Language Models [4.7264116948935975]
M-HalDetectは、詳細な画像記述のための最初のマルチモーダル幻覚検出データセットである。
InstructBLIPから細粒度マルチモーダル報酬モデルを訓練し,その有効性を評価する。
LLaVAとmPLUG-OWLの幻覚をそれぞれ15%と57%低減する。
論文 参考訳(メタデータ) (2023-08-11T21:35:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。