論文の概要: MIRROR: Multimodal Iterative Reasoning via Reflection on Visual Regions
- arxiv url: http://arxiv.org/abs/2602.18746v1
- Date: Sat, 21 Feb 2026 07:56:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.283966
- Title: MIRROR: Multimodal Iterative Reasoning via Reflection on Visual Regions
- Title(参考訳): MIRROR:視覚領域の反射によるマルチモーダル反復推論
- Authors: Haoyu Zhang, Yuwei Wu, Pengxiang Li, Xintong Zhang, Zhi Gao, Rui Gao, Mingyang Gao, Che Sun, Yunde Jia,
- Abstract要約: 視覚領域の反射によるマルチモーダル反復推論のためのMIRRORフレームワークを提案する。
ビジュアルリフレクションをコアメカニズムとして埋め込むことで、MIRRORはドラフト、批評、地域ベースの検証、リビジョンを含むクローズドループプロセスとして定式化される。
一般的な視覚言語ベンチマークと代表的な視覚言語推論ベンチマークの両方の実験は、MIRRORが正確性を改善し、視覚幻覚を減らすことを示している。
- 参考スコア(独自算出の注目度): 42.03378622674476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the era of Vision-Language Models (VLMs), enhancing multimodal reasoning capabilities remains a critical challenge, particularly in handling ambiguous or complex visual inputs, where initial inferences often lead to hallucinations or logic errors. Existing VLMs often produce plausible yet ungrounded answers, and even when prompted to "reflect", their corrections may remain detached from the image evidence. To address this, we propose the MIRROR framework for Multimodal Iterative Reasoning via Reflection On visual Regions. By embedding visual reflection as a core mechanism, MIRROR is formulated as a closed-loop process comprising draft, critique, region-based verification, and revision, which are repeated until the output is visually grounded. To facilitate training of this model, we construct **ReflectV**, a visual reflective dataset for multi-turn supervision that explicitly contains reflection triggers, region-based verification actions, and answer revision grounded in visual evidence. Experiments on both general vision-language benchmarks and representative vision-language reasoning benchmarks show that MIRROR improves correctness and reduces visual hallucinations, demonstrating the value of training reflection as an evidence-seeking, region-aware verification process rather than a purely textual revision step.
- Abstract(参考訳): VLM(Vision-Language Models)の時代において、マルチモーダル推論能力の強化は、特に曖昧な視覚的入力や複雑な視覚的入力を扱う場合において重要な課題であり、初期推論はしばしば幻覚や論理的誤りを引き起こす。
既存のVLMは、しばしば可塑性で根拠のない答えを生成し、たとえ「反射」するよう促されたとしても、その補正は画像証拠から切り離されたままである。
そこで本稿では,視覚領域の反射によるマルチモーダル反復推論のためのMIRRORフレームワークを提案する。
ビジュアルリフレクションをコアメカニズムとして埋め込むことにより、MIRRORはドラフト、批評、地域ベースの検証、リビジョンからなるクローズドループプロセスとして定式化され、出力が視覚的に接地されるまで繰り返される。
このモデルのトレーニングを容易にするために,多ターン監視のための視覚的反射データセット**ReflectV**を構築した。
一般的な視覚言語ベンチマークと代表的な視覚言語推論ベンチマークの両方の実験により、MIRRORは正当性を改善し、視覚幻覚を減らすことを示し、純粋にテキストの修正ステップではなく、エビデンス検索、地域対応の検証プロセスとしてトレーニング反射の価値を実証した。
関連論文リスト
- Do MLLMs Really See It: Reinforcing Visual Attention in Multimodal LLMs [55.61018839017648]
CoT(Chain-of- Thought)推論は、複雑な推論タスクにおいて、MLLM(Multimodal large language model)を大幅に改善した。
既存のアプローチは、主に長いテキスト推論軌道に依存し、安定した視覚的注意ポリシーを学ぶための限られたメカニズムを提供する。
地域レベルの視覚的注意に基づく報酬を導入する強化学習フレームワークを用いて訓練された視覚的推論モデルであるSAYOを提案する。
論文 参考訳(メタデータ) (2026-02-09T03:33:23Z) - V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval [32.5242219186118]
本稿では,視覚検査に基づくエージェント推論プロセスとしてマルチモーダル検索を再構成するエビデンス駆動検索フレームワークであるV-Retrverを提案する。
V-Retrverは、MLLMが外部視覚ツールを介して推論中に視覚的エビデンスを選択的に取得し、仮説生成と対象の視覚的検証を交互に行うマルチモーダル・インターリーブド推論プロセスを実行することを可能にする。
論文 参考訳(メタデータ) (2026-02-05T18:59:21Z) - Ground-R1: Incentivizing Grounded Visual Reasoning via Reinforcement Learning [96.01617809845396]
Ground-R1は、明示的なエビデンスや合理的アノテーションを必要とせずに、基礎的な視覚的推論を可能にする強化学習フレームワークである。
グラウンドR1は優れた性能を示し、不確実性認識、空間認識、反復的洗練などの創発的な認知行動を示す。
論文 参考訳(メタデータ) (2025-05-26T17:51:47Z) - Perception in Reflection [39.33505560810175]
本稿では,現在の大規模視覚言語モデルの限界を超越したリフレクションパラダイムを提案する。
本稿では、ポリシーと批判モデルとを体系的に交互に交互に行う二重モデル反射機構である反射知覚(RePer)を提案する。
論文 参考訳(メタデータ) (2025-04-09T17:59:02Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Meta-Reflection: A Feedback-Free Reflection Learning Framework [57.14485943991588]
外部からのフィードバックを伴わずに単一の推論パスのみを必要とするフィードバックフリーリフレクション機構であるメタリフレクションを提案する。
過去のリフレクションを記憶し、取り出す人間の能力によって、メタリフレクションはコードブックに反射的な洞察を統合する。
実世界のシナリオにおけるメタリフレクションの実践性を徹底的に検討し,評価するために,E-Commerce Customer Intent Detectionという産業eコマースベンチマークを導入する。
論文 参考訳(メタデータ) (2024-12-18T12:20:04Z) - Reflective Instruction Tuning: Mitigating Hallucinations in Large Vision-Language Models [36.119299938503936]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて有望な性能を示す。
幻覚に敏感であり、視覚内容や指示と不一致な出力を生成する。
本稿では,理科学習を視覚的指導調律に統合した反射的指導調律を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:32:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。