論文の概要: See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs
- arxiv url: http://arxiv.org/abs/2602.21497v1
- Date: Wed, 25 Feb 2026 02:13:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.671171
- Title: See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs
- Title(参考訳): LVLMにおける視覚的なマルチモーダル推論のための反復的なトレーニングフリーフレームワーク
- Authors: Yongchang Zhang, Xianzheng Ma, Tianyi Liu, Guangquan Zhou, Yang Chen,
- Abstract要約: 視覚的マルチモーダル推論のための反復的,トレーニング不要,プラグアンドプレイフレームワークを提案する。
私たちのキーとなるアイデアは、視覚的なエビデンスでテスト時の各推論ステップを監督することです。
本手法はTreeBenchを16.5%-29.5%改善し,RH-AUCを13.7%向上させる。
- 参考スコア(独自算出の注目度): 24.90876091319589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent large vision-language models (LVLMs) have demonstrated impressive reasoning ability by generating long chain-of-thought (CoT) responses. However, CoT reasoning in multimodal contexts is highly vulnerable to visual hallucination propagation: once an intermediate reasoning step becomes inconsistent with the visual evidence, subsequent steps-even if logically valid-can still lead to incorrect final answers. Existing solutions attempt to mitigate this issue by training models to "think with images" via reinforcement learning (RL). While effective, these methods are costly, model-specific, and difficult to generalize across architectures. Differently, we present a lightweight method that bypasses RL training and provides an iterative, training-free, plug-and-play framework for visually-grounded multimodal reasoning. Our key idea is to supervise each reasoning step at test time with visual evidence, ensuring that every decoded token is justified by corresponding visual cues. Concretely, we construct a textual visual-evidence pool that guides the model's reasoning generation. When existing evidence is insufficient, a visual decider module dynamically extracts additional relevant evidence from the image based on the ongoing reasoning context, expanding the pool until the model achieves sufficient visual certainty to terminate reasoning and produce the final answer. Extensive experiments on multiple LVLM backbones and benchmarks demonstrate the effectiveness of our approach. Our method achieves 16.5%-29.5% improvements on TreeBench and 13.7% RH-AUC gains on RH-Bench, substantially reducing hallucination rates while improving reasoning accuracy without additional training.
- Abstract(参考訳): 最近の大規模視覚言語モデル(LVLM)は、長いチェーン・オブ・シークレット(CoT)応答を生成することで、印象的な推論能力を示している。
しかし、マルチモーダルな文脈におけるCoT推論は視覚幻覚の伝播に対して非常に脆弱であり、中間的推論ステップが視覚的証拠と矛盾すると、その後のステップは論理的に妥当であるとしても、いまだに誤った最終回答につながる。
既存のソリューションは、強化学習(RL)を通じて"イメージで考える"ためのモデルをトレーニングすることで、この問題を緩和しようと試みている。
効果はあるものの、これらの手法はコストが高く、モデル固有のものであり、アーキテクチャ全体にわたって一般化するのが困難である。
異なる方法として、RLトレーニングを回避し、視覚的マルチモーダル推論のための反復的かつトレーニング不要なプラグアンドプレイフレームワークを提供する軽量な手法を提案する。
私たちのキーとなるアイデアは、テスト時の各推論ステップを視覚的エビデンスで監督し、デコードされたトークンが対応する視覚的手がかりによって正当化されることを保証することです。
具体的には、モデルの推論生成をガイドするテキスト・ビジュアル・エビデンス・プールを構築する。
既存の証拠が不十分な場合、視覚決定モジュールは、進行中の推論コンテキストに基づいて画像から追加の関連する証拠を動的に抽出し、モデルが推論を終了し最終回答を生成するのに十分な視覚的確実性を達成するまでプールを拡大する。
複数のLVLMバックボーンとベンチマークによる大規模な実験により,本手法の有効性が示された。
RH-Benchは16.5%-29.5%改善し,RH-AUCは13.7%向上した。
関連論文リスト
- Do MLLMs Really See It: Reinforcing Visual Attention in Multimodal LLMs [55.61018839017648]
CoT(Chain-of- Thought)推論は、複雑な推論タスクにおいて、MLLM(Multimodal large language model)を大幅に改善した。
既存のアプローチは、主に長いテキスト推論軌道に依存し、安定した視覚的注意ポリシーを学ぶための限られたメカニズムを提供する。
地域レベルの視覚的注意に基づく報酬を導入する強化学習フレームワークを用いて訓練された視覚的推論モデルであるSAYOを提案する。
論文 参考訳(メタデータ) (2026-02-09T03:33:23Z) - CASHEW: Stabilizing Multimodal Reasoning via Iterative Trajectory Aggregation [6.356820150960838]
視覚言語モデルを安定させるために,テスト時間スケーリングにインスパイアされた2つの補完的アプローチを導入する。
CASHEWは推論時のフレームワークで、複数の候補軌道を高品質な推論トレースに反復的に集約することで推論を安定化する。
CASHEW-RL はグループシーケンスポリシー最適化 (GSPO) を用いて訓練されており、最小でも十分な視覚的証拠に根ざした正しい回答を促す複合報酬が提供されている。
論文 参考訳(メタデータ) (2026-01-12T21:24:45Z) - Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - Deep But Reliable: Advancing Multi-turn Reasoning for Thinking with Images [53.373427633330515]
DRIMは,マルチモーダルCoTの画像について考える際に,深層かつ信頼性の高いマルチターン推論を可能にするモデルである。
高精細画像データセットに基づいて,高精細かつ検証可能な視覚的問合せ対を構築する。
SFTの段階では,ツールトラジェクトリをコールドスタートデータとして収集し,マルチターン推論パターンを導出する。
RLの段階では、冗長性を考慮したポリシー最適化を導入し、自己反射的推論パターンを開発するためのモデルにインセンティブを与える。
論文 参考訳(メタデータ) (2025-12-19T07:44:43Z) - See, Think, Learn: A Self-Taught Multimodal Reasoner [3.443084677278651]
本稿では,See-Think-Learnというシンプルな自己学習フレームワークを提案する。
STLの中核となるのは、モデルが考える前に見ることを奨励する構造化推論テンプレートである。
モデルが正しい応答と誤解を招く応答を区別する能力を高めるために、負の有理性でトレーニングデータを増強する。
論文 参考訳(メタデータ) (2025-12-02T06:30:10Z) - DeFacto: Counterfactual Thinking with Images for Enforcing Evidence-Grounded and Faithful Reasoning [11.952788515297913]
DeFactoは、正確な回答と忠実な推論を共同で実施する、反ファクト的推論フレームワークである。
本研究では,疑問関連証拠を自動的に局所化し,肯定的,反実的,ランダムな変種を構成するパイプラインを開発する。
多様なベンチマークの実験では、DeFactoは回答の正確さと忠実性の推論の両方を大幅に改善している。
論文 参考訳(メタデータ) (2025-09-25T08:58:10Z) - Reasoning-Aligned Perception Decoupling for Scalable Multi-modal Reasoning [95.44766931218896]
MLLM(Multi-modal large language model)は、テキストベースの推論に遅れを取っている。
本稿では,MLLMの推論コンポーネントをモジュール化し,容易に置き換え可能なパーセプション推論デカップリングを提案する。
本稿では,視覚知覚最適化(VPO)と呼ばれる新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-05T02:28:07Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Reflective Instruction Tuning: Mitigating Hallucinations in Large Vision-Language Models [36.119299938503936]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて有望な性能を示す。
幻覚に敏感であり、視覚内容や指示と不一致な出力を生成する。
本稿では,理科学習を視覚的指導調律に統合した反射的指導調律を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:32:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。