論文の概要: Hacking Hallucinations of MLLMs with Causal Sufficiency and Necessity
- arxiv url: http://arxiv.org/abs/2508.04182v1
- Date: Wed, 06 Aug 2025 08:09:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.615131
- Title: Hacking Hallucinations of MLLMs with Causal Sufficiency and Necessity
- Title(参考訳): 因果効率と必要性を考慮したMLLMのハロシン化
- Authors: Peizheng Guo, Jingyao Wang, Wenwen Qiang, Huijie Guo, Changwen Zheng, Jiahuan Zhou, Gang Hua,
- Abstract要約: MLLM(Multimodal Large Language Models)は、視覚言語タスクにまたがる印象的な機能を示す。
彼らは幻覚に悩まされ、入力画像やテキストと意味的に矛盾する出力を生成する。
本稿では,因果完全性に基づく新しい強化学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 25.725999088297392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated impressive capabilities across vision-language tasks. However, they may suffer from hallucinations--generating outputs that are semantically inconsistent with the input image or text. Through causal analyses, we find that: (i) hallucinations with omission may arise from the failure to adequately capture essential causal factors, and (ii) hallucinations with fabrication are likely caused by the model being misled by non-causal cues. To address these challenges, we propose a novel reinforcement learning framework guided by causal completeness, which jointly considers both causal sufficiency and causal necessity of tokens. Specifically, we evaluate each token's standalone contribution and counterfactual indispensability to define a token-level causal completeness reward. This reward is used to construct a causally informed advantage function within the GRPO optimization framework, encouraging the model to focus on tokens that are both causally sufficient and necessary for accurate generation. Experimental results across various benchmark datasets and tasks demonstrate the effectiveness of our approach, which effectively mitigates hallucinations in MLLMs.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、視覚言語タスクにまたがる印象的な機能を示す。
しかし、それらは幻覚に悩まされ、入力画像やテキストと意味的に矛盾する出力を生成する。
因果解析を通して、私たちはこう発見します。
一 欠失による幻覚は、本質的な因果関係を適切に把握できないことから生じ、
(ii) 生成による幻覚は、非因果的手がかりによって誤認されたモデルによって引き起こされる可能性が高い。
これらの課題に対処するために,トークンの因果的充足性と因果的必要性を両立させる,因果完全性に基づく新たな強化学習フレームワークを提案する。
具体的には、トークンレベルの因果完全性報酬を定義するために、各トークンの独立的なコントリビューションと反ファクト的不必要性を評価する。
この報酬は、GRPO最適化フレームワーク内で因果的にインシデントされたアドバンテージ関数を構築するために使用され、正確な生成に必要な十分なトークンにモデルを集中させることを奨励する。
様々なベンチマークデータセットとタスクによる実験結果から,MLLMの幻覚を効果的に軽減するアプローチの有効性が示された。
関連論文リスト
- A comprehensive taxonomy of hallucinations in Large Language Models [0.0]
大型言語モデル (LLM) は自然言語処理に革命をもたらしたが、幻覚の確率は依然として重要な課題である。
本報告では, LLM幻覚の包括的分類を, 形式的定義と理論的枠組みから開始する。
根本原因を分析し、それらをデータ関連問題、モデル関連要因、およびプロンプト関連の影響に分類する。
論文 参考訳(メタデータ) (2025-08-03T14:37:16Z) - HEAL: An Empirical Study on Hallucinations in Embodied Agents Driven by Large Language Models [30.596530112268848]
本研究では,大規模な言語モデルにおいて,シーン・タスクの不整合下での長時間の作業を行う幻覚に関する最初の体系的研究について述べる。
私たちのゴールは、幻覚の発生範囲、どのような不整合が引き起こされるか、現在のモデルがどのように反応するかを理解することです。
論文 参考訳(メタデータ) (2025-06-18T02:13:41Z) - Causal Sufficiency and Necessity Improves Chain-of-Thought Reasoning [20.901961243513835]
CoT(Chain-of-Thought)は、複雑な推論機能を備えた大規模言語モデル(LLM)の実現において、必要不可欠な役割を担っている。
本稿では,CoT推論を補足と必要の両レンズで特徴付ける因果的枠組みを提案する。
論文 参考訳(メタデータ) (2025-06-11T15:22:09Z) - MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM [58.2298313720146]
マルチモーダル幻覚は多源性であり、様々な原因から生じる。
既存のベンチマークでは、知覚誘発幻覚と推論誘発幻覚を適切に区別することができない。
論文 参考訳(メタデータ) (2025-05-30T05:54:36Z) - Why and How LLMs Hallucinate: Connecting the Dots with Subsequence Associations [82.42811602081692]
本稿では,幻覚を体系的に追跡・理解するサブシーケンス・アソシエーション・フレームワークを提案する。
主要な洞察は、支配的な幻覚協会が忠実なものを上回るときに生じる幻覚である。
ランダムな入力コンテキストにおける幻覚の確率を解析することにより因果列を同定するトレースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T06:34:45Z) - Attention Reallocation: Towards Zero-cost and Controllable Hallucination Mitigation of MLLMs [62.9348974370985]
約ゼロの余剰コストで幻覚を緩和するための注意再配置(AttnReal)を提案する。
我々のアプローチは,MLLMの注意分布が,歴史的出力トークンによって特徴が支配されるという重要な観測によって動機付けられている。
この観測に基づいて、AttnRealは出力トークンからの過剰な注意をリサイクルし、それを視覚トークンに再配置することで、MLLMの言語優先への依存を軽減します。
論文 参考訳(メタデータ) (2025-03-11T11:52:37Z) - Causal-Inspired Multitask Learning for Video-Based Human Pose Estimation [18.826857684901118]
本稿では2段階からなる因果時間モデリングフレームワークを提案する。
第1段階では、2つの自己超越補助タスクを導入することにより、因果時間モデリング能力を備えたモデルを提供する。
第2段階では、すべての特徴トークンが、ポーズ推定に等しく寄与するわけではないと論じる。
提案手法は3つの大規模ベンチマークデータセット上で最先端の手法より優れている。
論文 参考訳(メタデータ) (2025-01-24T09:45:16Z) - Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning [151.4060202671114]
マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。
本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。
本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
論文 参考訳(メタデータ) (2024-12-15T09:10:46Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。