Fugu-MT 論文翻訳(概要): Reflect to Inform: Boosting Multimodal Reasoning via Information-Gain-Driven Verification

論文の概要: Reflect to Inform: Boosting Multimodal Reasoning via Information-Gain-Driven Verification

arxiv url: http://arxiv.org/abs/2603.26348v1
Date: Fri, 27 Mar 2026 12:22:13 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-30 21:49:48.491865
Title: Reflect to Inform: Boosting Multimodal Reasoning via Information-Gain-Driven Verification
Title（参考訳）: Reflect to Inform: 情報ゲイン駆動検証によるマルチモーダル推論の強化
Authors: Shuai Lv, Chang Liu, Feng Tang, Yujie Yuan, Aojun Zhou, Kui Zhang, Xi Yang, Yangqiu Song,
Abstract要約: Visual Re-Examination (VRE)は、MLLMが視覚的な入力を追加することなく推論中に自律的に視覚的イントロスペクションを実行することができる自己進化型トレーニングフレームワークである。 VREは推論精度と知覚信頼性を継続的に改善し、特にロングチェーン環境では幻覚を著しく低減する。
参考スコア（独自算出の注目度）: 55.357038267439684
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal Large Language Models (MLLMs) achieve strong multimodal reasoning performance, yet we identify a recurring failure mode in long-form generation: as outputs grow longer, models progressively drift away from image evidence and fall back on textual priors, resulting in ungrounded reasoning and hallucinations. Interestingly, Based on attention analysis, we find that MLLMs have a latent capability for late-stage visual verification that is present but not consistently activated. Motivated by this observation, we propose Visual Re-Examination (VRE), a self-evolving training framework that enables MLLMs to autonomously perform visual introspection during reasoning without additional visual inputs. Rather than distilling visual capabilities from a stronger teacher, VRE promotes iterative self-improvement by leveraging the model itself to generate reflection traces, making visual information actionable through information gain. Extensive experiments across diverse multimodal benchmarks demonstrate that VRE consistently improves reasoning accuracy and perceptual reliability, while substantially reducing hallucinations, especially in long-chain settings. Code is available at https://github.com/Xiaobu-USTC/VRE.
Abstract（参考訳）: マルチモーダル大規模言語モデル (MLLM) は多モーダル推論性能が高いが, 出力が長くなるにつれて, モデルが画像証拠から徐々に遠ざかって, テキストの先行に陥り, 根拠のない推論や幻覚が生じる。興味深いことに、アテンション分析に基づいて、MLLMは後期の視覚的検証能力を持つが、一貫した活性化はしない。そこで本研究では,MLLMの視覚的インプットを付加することなく,推論中に自律的に視覚的イントロスペクションを行うことのできる,自己進化型トレーニングフレームワークであるVisual Re-Examination(VRE)を提案する。より強い教師から視覚能力を抽出する代わりに、VREはモデル自体を利用してリフレクショントレースを生成することで反復的な自己改善を促進する。多様なマルチモーダルベンチマークによる大規模な実験により、VREは推論精度と知覚信頼性を一貫して改善し、特にロングチェーン環境では幻覚を著しく低減することが示された。コードはhttps://github.com/Xiaobu-USTC/VREで入手できる。

関連論文リスト

Insight-V++: Towards Advanced Long-Chain Visual Reasoning with Multimodal Large Language Models [65.4947731385794]
基礎画像中心モデルであるInsight-Vから進化した統合多エージェント視覚推論フレームワークを提案する。空間的時間的推論を強化し、評価ロバスト性を向上させる2つの新しいアルゴリズムST-GRPOとJ-GRPOを導入する。 LLaVA-NeXTやQwen2.5-VLといったベースモデルの実験は、挑戦的な画像とビデオの推論ベンチマーク間で大きなパフォーマンス向上を示している。
論文参考訳（メタデータ） (2026-03-18T15:28:07Z)
Through the Lens of Contrast: Self-Improving Visual Reasoning in VLMs [60.93949629734977]
モデル生成論理における幻覚を軽減するために,視覚コントラスト型自己学習共振器(VC-STaR)を提案する。多様なVQAデータセットを収集し、マルチモーダルな類似性に応じてコントラストペアをキュレートし、VC-STaRを用いて合理性を生成する。大規模な実験によると、VC-STaRは既存の自己改善アプローチを上回るだけでなく、SoTA視覚推論データセットで微調整されたモデルを上回る。
論文参考訳（メタデータ） (2026-03-03T03:18:31Z)
Do MLLMs Really See It: Reinforcing Visual Attention in Multimodal LLMs [55.61018839017648]
CoT(Chain-of- Thought)推論は、複雑な推論タスクにおいて、MLLM(Multimodal large language model)を大幅に改善した。既存のアプローチは、主に長いテキスト推論軌道に依存し、安定した視覚的注意ポリシーを学ぶための限られたメカニズムを提供する。地域レベルの視覚的注意に基づく報酬を導入する強化学習フレームワークを用いて訓練された視覚的推論モデルであるSAYOを提案する。
論文参考訳（メタデータ） (2026-02-09T03:33:23Z)
V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval [32.5242219186118]
本稿では,視覚検査に基づくエージェント推論プロセスとしてマルチモーダル検索を再構成するエビデンス駆動検索フレームワークであるV-Retrverを提案する。 V-Retrverは、MLLMが外部視覚ツールを介して推論中に視覚的エビデンスを選択的に取得し、仮説生成と対象の視覚的検証を交互に行うマルチモーダル・インターリーブド推論プロセスを実行することを可能にする。
論文参考訳（メタデータ） (2026-02-05T18:59:21Z)
Vision-aligned Latent Reasoning for Multi-modal Large Language Model [82.26044667101011]
VaLR(Vision-aligned Latent Reasoning)は、思考の連鎖の推論ステップの前に動的に視覚対応の潜在トークンを生成するフレームワークである。 VaLRは、MLLMの中間埋め込みを視覚エンコーダのものと整合させることにより、推論中の視覚的知識の保存を訓練する。
論文参考訳（メタデータ） (2026-02-04T12:04:02Z)
MMRPT: MultiModal Reinforcement Pre-Training via Masked Vision-Dependent Reasoning [20.14427952871989]
MLLMにおける視覚的推論を強化するマルチモーダル強化事前学習フレームワークであるMMRPTを紹介する。我々は,大規模視覚言語モデルの事前学習に強化学習を直接取り入れた最初の人物である。実験では、様々なベンチマークで一貫したゼロショットゲインが示され、教師付き微調整下ではロバスト性が大幅に改善された。
論文参考訳（メタデータ） (2025-12-08T06:26:13Z)
Look-Back: Implicit Visual Re-focusing in MLLM Reasoning [15.478700750705643]
マルチモーダル大言語モデル (MLLM) は多モーダル推論において顕著な進歩を遂げている。現在の手法では、推論プロセスのガイドとして視覚情報を明示的に注入することで、この問題に対処するのが一般的である。 MLLMを振り返って視覚情報を見るための暗黙のアプローチであるLook-Backを導入する。
論文参考訳（メタデータ） (2025-07-02T14:59:35Z)
Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward [77.34936657745578]
本稿では,MLLMに視覚内容の正確な知覚を促す新しい視覚認識報酬を導入するPerception-R1を提案する。本稿では,Perception-R1が1,442のトレーニングデータのみを用いて,ほとんどのベンチマークで最先端のパフォーマンスを実現することを示す。
論文参考訳（メタデータ） (2025-06-08T16:48:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。