論文の概要: Improving Visual Reasoning with Iterative Evidence Refinement
- arxiv url: http://arxiv.org/abs/2603.14117v1
- Date: Sat, 14 Mar 2026 21:08:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.611599
- Title: Improving Visual Reasoning with Iterative Evidence Refinement
- Title(参考訳): 反復的エビデンスリファインメントによる視覚的推論の改善
- Authors: Zeru Shi, Kai Mei, Yihao Quan, Dimitris N. Metaxas, Ruixiang Tang,
- Abstract要約: 視覚言語モデル(VLM)は、画像の上に推論する能力がますます高まっている。
しかし、堅牢な視覚的推論は、基礎となる視覚的証拠において、しばしば中間的なステップを再定義する必要がある。
本稿では、内部表現による画像証拠の再挿入をモデルに訓練するエンド・ツー・エンドのセルフリビジョン・フレームワークであるSIEVEを提案する。
- 参考スコア(独自算出の注目度): 41.18410988040976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision language models (VLMs) are increasingly capable of reasoning over images, but robust visual reasoning often requires re-grounding intermediate steps in the underlying visual evidence. Recent approaches typically rely on external image operations such as zooming or cropping to re-access fine-grained details during inference, which requires additional image re-encoding and can disrupt the reasoning trajectory. We argue that VLMs already provide strong internal signals for identifying and reusing visual evidence, and that these signals can be directly leveraged to support image-grounded reasoning. Motivated by this insight, we propose an end-to-end self-revisit framework, SIEVE, that trains models to re-engage image evidence through internal representations. SIEVE automatically extracts embeddings of salient image regions and injects them into the reasoning chain when additional grounding is needed, enabling later steps to condition on relevant visual cues without external tool calls or re-encoding. We use reinforcement learning to teach the model when to trigger visual revisiting and which region embeddings to retrieve and insert during the reasoning process. Experiments on multiple visual reasoning benchmarks, together with perception, reasoning, and hallucination evaluations, show that SIEVE yields consistent gains, improving performance by 8 percent on average across several benchmarks.
- Abstract(参考訳): 視覚言語モデル(VLM)は、画像よりも推論する能力がますます高まっているが、頑健な視覚的推論は、基礎となる視覚的証拠の中間段階を再構築する必要があることが多い。
近年のアプローチでは、ズームやトリミングといった外部画像操作を頼りに、推論中に細かな詳細情報に再アクセスし、さらなる画像再符号化を必要とし、推論の軌道を乱す可能性がある。
我々は、VLMが視覚的証拠を識別・再利用するための強力な内部信号を提供しており、これらの信号を直接利用して画像基底推論を支援することができると論じている。
この知見に触発されて、内部表現による画像証拠の再挿入をモデルに訓練するエンド・ツー・エンドのセルフリビジョン・フレームワークであるSIEVEを提案する。
SIEVEは、正常な画像領域の埋め込みを自動的に抽出し、追加の接地が必要なときに推論チェーンに注入する。
我々は、強化学習を用いて、視覚的再考を誘発するタイミングと、推論プロセス中にどの領域を埋め込むかをモデルに教える。
複数の視覚的推論ベンチマークの実験は、知覚、推論、幻覚評価とともに、SIEVEが一貫した利得を示し、複数のベンチマークで平均8%の性能向上を示した。
関連論文リスト
- MIRROR: Multimodal Iterative Reasoning via Reflection on Visual Regions [42.03378622674476]
視覚領域の反射によるマルチモーダル反復推論のためのMIRRORフレームワークを提案する。
ビジュアルリフレクションをコアメカニズムとして埋め込むことで、MIRRORはドラフト、批評、地域ベースの検証、リビジョンを含むクローズドループプロセスとして定式化される。
一般的な視覚言語ベンチマークと代表的な視覚言語推論ベンチマークの両方の実験は、MIRRORが正確性を改善し、視覚幻覚を減らすことを示している。
論文 参考訳(メタデータ) (2026-02-21T07:56:59Z) - VisRAG 2.0: Evidence-Guided Multi-Image Reasoning in Visual Retrieval-Augmented Generation [64.82775032985485]
視覚検索強化世代(VRAG)は視覚言語モデル(VLM)を外的視覚知識で拡張し、基礎推論を行い幻覚を減らす。
しかし、現在のVRAGシステムは、複数の画像に対して確実な認識と証拠の統合に失敗し、根拠の弱さと誤った結論に繋がることが多い。
EVisRAGは,エビデンス誘導型マルチイメージで推論を学習し,この問題に対処するエンド・ツー・エンドのフレームワークである。
論文 参考訳(メタデータ) (2025-10-10T13:34:23Z) - Self-Rewarding Vision-Language Model via Reasoning Decomposition [49.784411666601905]
VLM(Vision-Language Models)はしばしば視覚幻覚に悩まされ、実際に画像にないものや言語ショートカットが語られる。
本稿では,外部視覚監督に頼らずに視覚推論を改善する自己回帰手法であるVision-SR1を紹介する。
我々の実験は、Vision-SR1が視覚的推論を改善し、視覚幻覚を緩和し、言語ショートカットへの依存を減らすことを示した。
論文 参考訳(メタデータ) (2025-08-27T08:01:03Z) - Look-Back: Implicit Visual Re-focusing in MLLM Reasoning [15.478700750705643]
マルチモーダル大言語モデル (MLLM) は多モーダル推論において顕著な進歩を遂げている。
現在の手法では、推論プロセスのガイドとして視覚情報を明示的に注入することで、この問題に対処するのが一般的である。
MLLMを振り返って視覚情報を見るための暗黙のアプローチであるLook-Backを導入する。
論文 参考訳(メタデータ) (2025-07-02T14:59:35Z) - MiCo: Multi-image Contrast for Reinforcement Visual Reasoning [72.81576836419373]
CoT(Chain-of-Thought)推論は、複数の画像に視覚的手がかりをリンクするために使用することができる。
視覚言語モデル(VLM)の規則に基づく強化学習に適応する
提案手法は,マルチイメージ推論ベンチマークにおいて大幅な改善を実現し,汎用視覚タスクにおいて高い性能を示す。
論文 参考訳(メタデータ) (2025-06-27T17:59:27Z) - Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。
TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。
提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文 参考訳(メタデータ) (2025-03-17T16:45:12Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。