論文の概要: ClueTracer: Question-to-Vision Clue Tracing for Training-Free Hallucination Suppression in Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2602.02004v1
- Date: Mon, 02 Feb 2026 12:03:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.126819
- Title: ClueTracer: Question-to-Vision Clue Tracing for Training-Free Hallucination Suppression in Multimodal Reasoning
- Title(参考訳): ClueTracer:マルチモーダル推論における学習自由幻覚抑制のための質問対視覚的クローズトレーシング
- Authors: Gongli Xi, Kun Wang, Zeming Gao, Huahui Yi, Haolang Lu, Ye Tian, Wendong Wang,
- Abstract要約: 本稿では,視覚的手がかり検索の指標であるClueRecallを紹介する。
本稿では,幻覚抑制のためのトレーニングフリー,パラメータフリー,アーキテクチャ非依存のプラグインであるClueTracerを紹介する。
- 参考スコア(独自算出の注目度): 11.30122927323085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large multimodal reasoning models solve challenging visual problems via explicit long-chain inference: they gather visual clues from images and decode clues into textual tokens. Yet this capability also increases hallucinations, where the model generates content that is not supported by the input image or the question. To understand this failure mode, we identify \emph{reasoning drift}: during clue gathering, the model over-focuses on question-irrelevant entities, diluting focus on task-relevant cues and gradually decoupling the reasoning trace from visual grounding. As a consequence, many inference-time localization or intervention methods developed for non-reasoning models fail to pinpoint the true clues in reasoning settings. Motivated by these insights, we introduce ClueRecall, a metric for assessing visual clue retrieval, and present ClueTracer, a training-free, parameter-free, and architecture-agnostic plugin for hallucination suppression. ClueTracer starts from the question and traces how key clues propagate along the model's reasoning pathway (question $\rightarrow$ outputs $\rightarrow$ visual tokens), thereby localizing task-relevant patches while suppressing spurious attention to irrelevant regions. Remarkably, \textbf{without any additional training}, ClueTracer improves all \textbf{reasoning} architectures (including \texttt{R1-OneVision}, \texttt{Ocean-R1}, \texttt{MM-Eureka}, \emph{etc}.) by $\mathbf{1.21\times}$ on reasoning benchmarks. When transferred to \textbf{non-reasoning} settings, it yields a $\mathbf{1.14\times}$ gain.
- Abstract(参考訳): 大規模なマルチモーダル推論モデルは、画像から視覚的な手がかりを収集し、手掛かりをテキストトークンにデコードすることで、明示的な長鎖推論を通じて、難しい視覚的問題を解決する。
しかし、この能力はまた幻覚を増大させ、モデルが入力画像や質問でサポートされていないコンテンツを生成する。
この失敗モードを理解するために, 手がかり収集において, モデルが質問非関連エンティティに過度に焦点を合わせ, タスク関連キューに焦点を絞り, 視覚的グラウンドから推論トレースを徐々に分離する。
その結果、非推論モデルのために開発された多くの推論時ローカライズまたは介入手法は、推論設定における真の手がかりを特定できない。
これらの知見に触発され,視覚的手がかり検索の指標であるClueRecallと,幻覚抑制のためのトレーニングフリー,パラメータフリー,アーキテクチャ非依存のプラグインであるClueTracerを紹介した。
ClueTracerはこの質問から始まり、キーのヒントがモデルの推論経路に沿ってどのように伝播するか(クエション$\rightarrow$ outputs $\rightarrow$ visual tokens)を辿り、従ってタスク関連パッチをローカライズし、無関係な領域への急激な注意を抑える。
注目すべきなのは、 ClueTracer は、すべての \textbf{reasoning} アーキテクチャ( \texttt{R1-OneVision}, \texttt{Ocean-R1}, \texttt{MM-Eureka}, \emph{etc} を含む)を改善していることだ。
) by $\mathbf{1.21\times}$ on reasoning benchmarks。
textbf{non-reasoning}設定に転送されると、$\mathbf{1.14\times}$ gainとなる。
関連論文リスト
- Thinking with Deltas: Incentivizing Reinforcement Learning via Differential Visual Reasoning Policy [75.66913260900726]
検証可能なリワードによる強化学習は、大規模言語モデルにおいてかなり高度な推論能力を持っている。
既存のパラダイムは、テキスト中心の成果報酬によって推進され、モデルが視覚的知覚をバイパスすることを奨励します。
我々はtextbfDifferential Visual Reasoning Policy によって駆動されるフレームワーク Deltas を用いた textbfThinking を提案する。
論文 参考訳(メタデータ) (2026-01-11T08:25:34Z) - CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving [28.57547723919984]
本稿では,認知に触発された新しい3段階のフレームワークであるCogFlowについて紹介する。
抽出された視覚的手がかりをその後の推論に忠実に統合することを保証するために,知識内部化リワードモデルを導入する。
また、120K以上の高品質な知覚関連アノテーションを持つサンプルを含むモデルトレーニングのための新しいデータセットMathCogも提供します。
論文 参考訳(メタデータ) (2026-01-05T08:02:18Z) - Thinking Before You Speak: A Proactive Test-time Scaling Approach [54.8205006555199]
emphThinking Before You Speak (TBYS)という名前の推論フレームワークとして、私たちのアイデアを実装しています。
インテリジェンス生成のためのコンテキスト内サンプルを自動的に収集・フィルタリングするパイプラインを設計する。
挑戦的な数学的データセットの実験は、TBYSの有効性を検証する。
論文 参考訳(メタデータ) (2025-08-26T03:43:32Z) - VLM-R$^3$: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought [51.43082554363725]
textbfVLM-R$3$ (textbfVisual textbfLanguage textbfModel with textbfRegion textbfRecognition and textbfReasoning) はMLLMに付加的な視覚的証拠が必要な場合にエフェクトを決定する機能を提供するフレームワークである。
MathVista、ScienceQA、その他のベンチマークの実験は、VLM-R$3$が新しいものを設定することを示している
論文 参考訳(メタデータ) (2025-05-22T03:50:13Z) - Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。
TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。
提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文 参考訳(メタデータ) (2025-03-17T16:45:12Z) - PAINT: Paying Attention to INformed Tokens to Mitigate Hallucination in Large Vision-Language Model [0.0]
幻覚は、しばしば注意重みの進歩的な弱体化から視覚的トークンへと生じる。
textbfPAINT (textbfPaying textbfAttention to textbfINformed textbfTokens) は、大規模視覚言語モデルの自己保持機構を介するプラグイン・アンド・プレイフレームワークである。
論文 参考訳(メタデータ) (2025-01-21T15:22:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。