論文の概要: Causal-LLaVA: Causal Disentanglement for Mitigating Hallucination in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2505.19474v1
- Date: Mon, 26 May 2025 03:53:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.148775
- Title: Causal-LLaVA: Causal Disentanglement for Mitigating Hallucination in Multimodal Large Language Models
- Title(参考訳): Causal-LLaVA:多モーダル大言語モデルにおける幻覚の緩和のための因果解離
- Authors: Xinmiao Hu, Chun Wang, Ruihe An, ChenYu Shao, Xiaojun Ye, Sheng Zhou, Liangcheng Li,
- Abstract要約: MLLM(Multimodal Large Language Models)は視覚的理解タスクにおいて高い性能を示す。
それらはしばしば、対象の幻覚に悩まされる - 入力と矛盾する、あるいは完全に欠落している物体の記述を生成する。
因果的介入を通じて幻覚を緩和する因果的非絡み合いの枠組みを提案する。
- 参考スコア(独自算出の注目度): 12.31624700475112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated strong performance in visual understanding tasks, yet they often suffer from object hallucinations--generating descriptions of objects that are inconsistent with or entirely absent from the input. This issue is closely related to dataset biases, where frequent co-occurrences of objects lead to entangled semantic representations across modalities. As a result, models may erroneously activate object representations that are commonly associated with the input but not actually present. To address this, we propose a causality-driven disentanglement framework that mitigates hallucinations through causal intervention. Our approach includes a Causal-Driven Projector in the visual pathway and a Causal Intervention Module integrated into the final transformer layer of the language model. These components work together to reduce spurious correlations caused by biased training data. Experimental results show that our method significantly reduces hallucinations while maintaining strong performance on multiple multimodal benchmarks. Visualization analyses further confirm improved separability of object representations. The code is available at: https://github.com/IgniSavium/Causal-LLaVA
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、視覚的理解タスクにおいて強力なパフォーマンスを示してきたが、それらはしばしばオブジェクト幻覚に悩まされる。
この問題はデータセットのバイアスと密接に関連しており、オブジェクトの頻繁な共起によってモダリティ間の絡み合ったセマンティック表現が導かれる。
結果として、モデルは入力と一般的に関連付けられるが実際には存在しないオブジェクト表現を誤って活性化する可能性がある。
そこで本研究では,因果的介入を通じて幻覚を緩和する因果的非絡み合いの枠組みを提案する。
我々のアプローチには、視覚経路における因果駆動プロジェクタと、言語モデルの最終トランスフォーマー層に統合された因果干渉モジュールが含まれる。
これらのコンポーネントは協調して、バイアス付きトレーニングデータによって引き起こされる急激な相関を減らします。
実験の結果,複数のマルチモーダルベンチマークにおいて強い性能を維持しつつ,幻覚を著しく低減できることがわかった。
可視化解析により、オブジェクト表現の分離性はさらに向上した。
コードは、https://github.com/IgniSavium/Causal-LLaVAで入手できる。
関連論文リスト
- ClearSight: Visual Signal Enhancement for Object Hallucination Mitigation in Multimodal Large language Models [28.24397677839652]
マルチモーダル大言語モデル(MLLM)におけるオブジェクト幻覚を軽減するために、コントラストデコーディング戦略が広く用いられている。
モデル中層における視覚信号に注意を向けるプラグイン・アンド・プレイ技術であるVisual Amplification Fusion (VAF)を提案する。
VAFは、生成された出力のコヒーレンスと精度を維持しながら、推論速度に影響を与えることなく、様々なMLLMの幻覚を著しく低減する。
論文 参考訳(メタデータ) (2025-03-17T12:30:40Z) - Treble Counterfactual VLMs: A Causal Approach to Hallucination [6.3952983618258665]
VisionLanguage Models (VLM) には、画像キャプション、視覚的質問応答、推論といった高度なマルチモーダルタスクがある。
視覚的文脈やプロンプトと矛盾しない幻覚出力をしばしば生成する。
既存の研究では、幻覚は統計的バイアス、言語優先、偏見のある特徴学習と結びついているが、構造的な因果理解は欠如している。
論文 参考訳(メタデータ) (2025-03-08T11:13:05Z) - EAGLE: Enhanced Visual Grounding Minimizes Hallucinations in Instructional Multimodal Models [54.234657224615354]
大規模な言語モデルと視覚変換器は、ダウンストリームタスクにおいて大きな転送可能性を実現する、印象的なゼロショット機能を示している。
膨大な画像と言語の事前学習を取り入れているにもかかわらず、これらのマルチモーダルアーキテクチャは、画像データの基底真理から逸脱する応答をしばしば生成する。
幻覚を緩和する現在の方法は、一般的に言語コンポーネントの正規化、融合モジュールの改善、視覚表現を改善するために複数の視覚エンコーダのアンサンブルに焦点を当てている。
従来のコントラスト付き事前学習タスクを手軽に書き換えることで,教育用マルチモーダルアーキテクチャに組み込まれたビジュアルエンコーダが,追加の指導訓練を行なわずに実現可能であることを示す。
論文 参考訳(メタデータ) (2025-01-06T00:39:31Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation [50.73561815838431]
MLLM(Multimodal Large Language Models)はしばしば幻覚現象を示す。
実験により,MLLMは最終出力のオブジェクトを誤って生成するが,前層の視覚的オブジェクトを認識できることがわかった。
そこで本研究では,MLLMs DeCoの動的補正復号法を提案する。この手法は,適切な先行層を適応的に選択し,最終層に知識を比例的に統合し,出力ロジットを調整する。
論文 参考訳(メタデータ) (2024-10-15T16:57:44Z) - Lower Layer Matters: Alleviating Hallucination via Multi-Layer Fusion Contrastive Decoding with Truthfulness Refocused [44.37155553647802]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて例外的な性能を示している。
時に、期待された出力と事実的に不正確な、あるいは不一致なコンテンツを生成する。
近年の研究では,幻覚誘発モデルとアマチュアモデルとの対比的復号化について検討している。
LOL(Lower Layer Matters)と呼ばれる新しいコントラストデコーディングフレームワークを導入する。
論文 参考訳(メタデータ) (2024-08-16T14:23:59Z) - Cross-Modal Causal Relational Reasoning for Event-Level Visual Question
Answering [134.91774666260338]
既存の視覚的質問応答法は、しばしばクロスモーダルなスプリアス相関と過度に単純化されたイベントレベルの推論プロセスに悩まされる。
本稿では,イベントレベルの視覚的質問応答の課題に対処するために,モーダルな因果関係推論のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-26T04:25:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。