論文の概要: Seeing Through the Chain: Mitigate Hallucination in Multimodal Reasoning Models via CoT Compression and Contrastive Preference Optimization
- arxiv url: http://arxiv.org/abs/2602.03380v1
- Date: Tue, 03 Feb 2026 11:00:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.403783
- Title: Seeing Through the Chain: Mitigate Hallucination in Multimodal Reasoning Models via CoT Compression and Contrastive Preference Optimization
- Title(参考訳): 連鎖を通して見る:CoT圧縮とコントラスト優先最適化によるマルチモーダル推論モデルにおける緩和幻覚
- Authors: Hao Fang, Jinyu Li, Jiawei Kong, Tianqu Zhuang, Kuofeng Gao, Bin Chen, Shu-Tao Xia, Yaowei Wang,
- Abstract要約: マルチモーダル推論モデル (Multimodal reasoning model, MLRM) は幻覚の傾向が強く, 効果的な解はいまだ未発見のままである。
textbfCompression と textbfPreference textbfOptimization を組み合わせたトレーニングベースの緩和フレームワーク C3PO を提案する。
- 参考スコア(独自算出の注目度): 78.94590726578014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While multimodal reasoning models (MLRMs) have exhibited impressive capabilities, they remain prone to hallucinations, and effective solutions are still underexplored. In this paper, we experimentally analyze the hallucination cause and propose C3PO, a training-based mitigation framework comprising \textbf{C}hain-of-Thought \textbf{C}ompression and \textbf{C}ontrastive \textbf{P}reference \textbf{O}ptimization. Firstly, we identify that introducing reasoning mechanisms exacerbates models' reliance on language priors while overlooking visual inputs, which can produce CoTs with reduced visual cues but redundant text tokens. To this end, we propose to selectively filter redundant thinking tokens for a more compact and signal-efficient CoT representation that preserves task-relevant information while suppressing noise. In addition, we observe that the quality of the reasoning trace largely determines whether hallucination emerges in subsequent responses. To leverage this insight, we introduce a reasoning-enhanced preference tuning scheme that constructs training pairs using high-quality AI feedback. We further design a multimodal hallucination-inducing mechanism that elicits models' inherent hallucination patterns via carefully crafted inducers, yielding informative negative signals for contrastive correction. We provide theoretical justification for the effectiveness and demonstrate consistent hallucination reduction across diverse MLRMs and benchmarks.
- Abstract(参考訳): マルチモーダル推論モデル (Multimodal reasoning model, MLRM) は印象的な能力を示したが、幻覚の傾向は残り、効果的な解はいまだに未発見である。
本稿では,幻覚の原因を実験的に分析し,<textbf{C}hain-of-Thought \textbf{C}ompressionと<textbf{C}ontrastive \textbf{P}reference \textbf{O}ptimizationからなるトレーニングベースの緩和フレームワークであるC3POを提案する。
第一に、推論機構の導入は、視覚的な入力を見下ろしながら、モデルの言語先行への依存を悪化させ、視覚的手がかりを少なくしながら冗長なテキストトークンを生成できることを示す。
この目的のために,ノイズを抑えつつタスク関連情報を保存し,よりコンパクトで信号効率のよいCoT表現に対して,冗長な思考トークンを選択的にフィルタリングする手法を提案する。
さらに, 後続の反応で幻覚が出現するか否かを, 理論的トレースの品質が決定することが明らかとなった。
この知見を活用するために、高品質なAIフィードバックを用いてトレーニングペアを構築する推論強化された選好チューニングスキームを導入する。
さらに, モデル固有の幻覚パターンを, 厳密なインデューサによって引き起こすマルチモーダル幻覚誘導機構を設計し, コントラスト補正のための情報的負の信号を生成する。
本研究は,MLRMおよびベンチマークにおいて,有効性の理論的正当性を示し,一貫した幻覚の減少を示す。
関連論文リスト
- Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - PruneHal: Reducing Hallucinations in Multi-modal Large Language Models through Adaptive KV Cache Pruning [87.35309934860938]
大型言語モデル(MLLM)における幻覚は、視覚トークンに割り当てられた注意不足と強く関連している。
我々は、適応的なKVキャッシュプルーニングを活用し、重要な視覚情報に焦点をあてるトレーニングフリーでシンプルで効果的な方法である textbfPruneHal を提案する。
論文 参考訳(メタデータ) (2025-10-22T02:41:07Z) - MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM [58.2298313720146]
マルチモーダル幻覚は多源性であり、様々な原因から生じる。
既存のベンチマークでは、知覚誘発幻覚と推論誘発幻覚を適切に区別することができない。
論文 参考訳(メタデータ) (2025-05-30T05:54:36Z) - Grounding Language with Vision: A Conditional Mutual Information Calibrated Decoding Strategy for Reducing Hallucinations in LVLMs [51.93737995405164]
LVLM(Large Vision-Language Models)は幻覚の影響を受けやすいモデルである。
本稿では,条件付きポイントワイド・ミューチュアル・インフォメーション(C-PMI)キャリブレーション・デコーディング・ストラテジーを導入する。
提案手法は,復号効率を保ちながら,LVLMの幻覚を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-05-26T08:36:10Z) - Decoupling Contrastive Decoding: Robust Hallucination Mitigation in Multimodal Large Language Models [23.846371966667927]
マルチモーダル大言語モデル(MLLM)は、明白な視覚的または事実的証拠と一致しない出力を生成する。
DCD(Decoupling Contrastive Decoding)という新しいフレームワークを提案する。
DCDは選好データセットにおける正と負のサンプルの学習を分離し、訓練はMLLM内で正と負のイメージ投影を分離する。
論文 参考訳(メタデータ) (2025-04-09T02:59:18Z) - Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding [25.489832294197797]
本稿では,LVLM推論における幻覚の低減を目的とした,命令コントラストデコーディング(ICD)手法を提案する。
本手法は,マルチモーダル核融合モジュールにおいて,外乱指示が幻覚を著しく悪化させるという観察に着想を得たものである。
論文 参考訳(メタデータ) (2024-03-27T16:04:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。