論文の概要: Understanding and Mitigating Hallucinations in Multimodal Chain-of-Thought Models
- arxiv url: http://arxiv.org/abs/2603.27201v1
- Date: Sat, 28 Mar 2026 08:56:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.845238
- Title: Understanding and Mitigating Hallucinations in Multimodal Chain-of-Thought Models
- Title(参考訳): マルチモーダル・チェーン・オブ・サートモデルにおける幻覚の理解と緩和
- Authors: Ji Ma, Wei Suo, Peng Wang, Yanning Zhang,
- Abstract要約: MCoT(Multimodal Chain-of-Thought)モデルは、複雑な視覚的推論タスクにおいて印象的な能力を示す。
近年の研究では、生成過程における視覚的注意の低下により、深刻な幻覚障害に悩まされていることが判明している。
本稿では,多様な思考ステップを効果的にローカライズし,幻覚を緩和するデコードプロセスに介入する戦略を提案する。
- 参考スコア(独自算出の注目度): 40.739279930631334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Chain-of-Thought (MCoT) models have demonstrated impressive capability in complex visual reasoning tasks. Unfortunately, recent studies reveal that they suffer from severe hallucination problems due to diminished visual attention during the generation process. However, visual attention decay is a well-studied problem in Large Vision-Language Models (LVLMs). Considering the fundamental differences in reasoning processes between MCoT models and traditional LVLMs, we raise a basic question: Whether MCoT models have unique causes of hallucinations? To answer this question, we systematically investigate the hallucination patterns of MCoT models and find that fabricated texts are primarily generated in associative reasoning steps, which we term divergent thinking. Leveraging these insights, we introduce a simple yet effective strategy that can effectively localize divergent thinking steps and intervene in the decoding process to mitigate hallucinations. Extensive experiments show that our method outperforms existing methods by a large margin. More importantly, our proposed method can be conveniently integrated with other hallucination mitigation methods and further boost their performance. The code is publicly available at https://github.com/ASGO-MM/MCoT-hallucination.
- Abstract(参考訳): MCoT(Multimodal Chain-of-Thought)モデルは、複雑な視覚的推論タスクにおいて印象的な能力を示す。
残念なことに、最近の研究では、生成過程における視覚的注意の低下により、深刻な幻覚障害に悩まされていることが明らかになっている。
しかし、視覚的注意減衰はLVLM(Large Vision-Language Models)においてよく研究されている問題である。
MCoTモデルと従来のLVLMの推論過程の根本的な違いを考えると、MCoTモデルに幻覚のユニークな原因があるかどうかという根本的な疑問が提起される。
この疑問に対処するために,我々はMCoTモデルの幻覚パターンを体系的に検討し,生成したテキストが主に連想的推論ステップで生成されることを発見した。
これらの知見を生かして,多様な思考ステップを効果的にローカライズし,幻覚を緩和するための復号プロセスに介入する,シンプルかつ効果的な戦略を導入する。
大規模な実験により,本手法は既存手法よりも高い性能を示した。
さらに重要なことは,提案手法を他の幻覚緩和法と便利に統合し,その性能をさらに向上させることである。
コードはhttps://github.com/ASGO-MM/MCoT-hallucinationで公開されている。
関連論文リスト
- PruneHal: Reducing Hallucinations in Multi-modal Large Language Models through Adaptive KV Cache Pruning [87.35309934860938]
大型言語モデル(MLLM)における幻覚は、視覚トークンに割り当てられた注意不足と強く関連している。
我々は、適応的なKVキャッシュプルーニングを活用し、重要な視覚情報に焦点をあてるトレーニングフリーでシンプルで効果的な方法である textbfPruneHal を提案する。
論文 参考訳(メタデータ) (2025-10-22T02:41:07Z) - MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM [58.2298313720146]
マルチモーダル幻覚は多源性であり、様々な原因から生じる。
既存のベンチマークでは、知覚誘発幻覚と推論誘発幻覚を適切に区別することができない。
論文 参考訳(メタデータ) (2025-05-30T05:54:36Z) - Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning [151.4060202671114]
マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。
本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。
本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
論文 参考訳(メタデータ) (2024-12-15T09:10:46Z) - Thinking Before Looking: Improving Multimodal LLM Reasoning via Mitigating Visual Hallucination [13.706325901731665]
MLLM(Multimodal large language model)は、視覚的・言語的モダリティの統合を推進している。
思考の連鎖(CoT)推論のような現在のアプローチは、大規模言語モデル(LLM)の認知能力を増強している。
しかし、MLLMへの適応は、相互モダリティ理解における幻覚のリスクの増大によって妨げられている。
論文 参考訳(メタデータ) (2024-11-15T21:01:37Z) - Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding [25.489832294197797]
本稿では,LVLM推論における幻覚の低減を目的とした,命令コントラストデコーディング(ICD)手法を提案する。
本手法は,マルチモーダル核融合モジュールにおいて,外乱指示が幻覚を著しく悪化させるという観察に着想を得たものである。
論文 参考訳(メタデータ) (2024-03-27T16:04:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。