論文の概要: PruneHal: Reducing Hallucinations in Multi-modal Large Language Models through Adaptive KV Cache Pruning
- arxiv url: http://arxiv.org/abs/2510.19183v1
- Date: Wed, 22 Oct 2025 02:41:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.937146
- Title: PruneHal: Reducing Hallucinations in Multi-modal Large Language Models through Adaptive KV Cache Pruning
- Title(参考訳): PruneHal:適応的なKVキャッシュ・プルーニングによるマルチモーダル大言語モデルにおける幻覚の低減
- Authors: Fengyuan Sun, Hui Chen, Xinhao Xu, Dandan Zheng, Jingdong Chen, Jun Zhou, Jungong Han, Guiguang Ding,
- Abstract要約: 大型言語モデル(MLLM)における幻覚は、視覚トークンに割り当てられた注意不足と強く関連している。
我々は、適応的なKVキャッシュプルーニングを活用し、重要な視覚情報に焦点をあてるトレーニングフリーでシンプルで効果的な方法である textbfPruneHal を提案する。
- 参考スコア(独自算出の注目度): 87.35309934860938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While multi-modal large language models (MLLMs) have made significant progress in recent years, the issue of hallucinations remains a major challenge. To mitigate this phenomenon, existing solutions either introduce additional data for further training or incorporate external or internal information during inference. However, these approaches inevitably introduce extra computational costs. In this paper, we observe that hallucinations in MLLMs are strongly associated with insufficient attention allocated to visual tokens. In particular, the presence of redundant visual tokens disperses the model's attention, preventing it from focusing on the most informative ones. As a result, critical visual cues are often under-attended, which in turn exacerbates the occurrence of hallucinations. Building on this observation, we propose \textbf{PruneHal}, a training-free, simple yet effective method that leverages adaptive KV cache pruning to enhance the model's focus on critical visual information, thereby mitigating hallucinations. To the best of our knowledge, we are the first to apply token pruning for hallucination mitigation in MLLMs. Notably, our method don't require additional training and incurs nearly no extra inference cost. Moreover, PruneHal is model-agnostic and can be seamlessly integrated with different decoding strategies, including those specifically designed for hallucination mitigation. We evaluate PruneHal on several widely used hallucination evaluation benchmarks using four mainstream MLLMs, achieving robust and outstanding results that highlight the effectiveness and superiority of our method. Our code will be publicly available.
- Abstract(参考訳): 近年,マルチモーダル大規模言語モデル (MLLM) は大きな進歩を遂げているが,幻覚の問題は依然として大きな課題である。
この現象を緩和するために、既存のソリューションはさらなるトレーニングのための追加データを導入するか、推論中に外部情報や内部情報を取り入れる。
しかし、これらのアプローチは必然的に余分な計算コストをもたらす。
本稿では,MLLMにおける幻覚は視覚トークンに割り当てられた注意不足と強く関連していることを示す。
特に、冗長な視覚トークンの存在はモデルの注意を分散させ、最も情報性の高いトークンに焦点を合わせるのを防ぐ。
その結果、批判的な視覚的手がかりは、しばしば過小評価され、それによって幻覚の発生が悪化する。
そこで本研究では, 適応型KVキャッシュプルーニングを利用して, 重要な視覚情報に着目し, 幻覚を緩和する学習自由で, シンプルで効果的な手法である \textbf{PruneHal} を提案する。
我々の知る限りでは、MLLMにおける幻覚緩和にトークンプルーニングを最初に適用した人物である。
特に、我々の方法は追加のトレーニングを必要とせず、ほとんど追加の推論コストを発生させません。
さらにPruneHalはモデルに依存しないため、幻覚の緩和のために特別に設計されたものなど、さまざまなデコード戦略とシームレスに統合することができる。
PruneHalを4つのメインストリームMLLMを用いて,広く使用されている幻覚評価ベンチマークで評価し,本手法の有効性と優位性を示す頑健で優れた結果を得た。
私たちのコードは公開されます。
関連論文リスト
- Exposing Hallucinations To Suppress Them: VLMs Representation Editing With Generative Anchors [8.089908150148554]
マルチモーダル大規模言語モデル (MLLM) は様々な視覚言語タスクにおいて顕著な成功を収めている。
MLLMは幻覚に非常に敏感であり、視覚的証拠とは相容れない内容を生み出す。
本研究では,幻覚の緩和のための訓練不要で自己指導的な方法を提案する。
論文 参考訳(メタデータ) (2025-09-26T07:24:28Z) - Mitigating Hallucinations in Multimodal LLMs via Object-aware Preference Optimization [55.543583937522804]
MLLM(Multimodal Large Language Models)は、様々なタスクに対処するための統一インターフェースとして登場した。
多くのベンチマークで最先端の結果が誇示されているにもかかわらず、長年の問題はMLLMが幻覚を起こす傾向にある。
本稿では,幻覚の問題をアライメント問題として取り上げ,幻覚を伴わないコンテンツを生成するためのMLLMのステアリングを試みる。
論文 参考訳(メタデータ) (2025-08-27T18:02:04Z) - Mitigating Object Hallucination via Robust Local Perception Search [11.570368427723961]
局所知覚探索(Local Perception Search, LPS)は、単純かつ訓練のない推論における復号法であり、幻覚を効果的に抑制する。
LPSはベースラインに比べて幻覚の発生率を著しく低下させ,特に騒音条件下では異常な性能を示した。
論文 参考訳(メタデータ) (2025-06-07T09:27:26Z) - Attention Reallocation: Towards Zero-cost and Controllable Hallucination Mitigation of MLLMs [62.9348974370985]
約ゼロの余剰コストで幻覚を緩和するための注意再配置(AttnReal)を提案する。
我々のアプローチは,MLLMの注意分布が,歴史的出力トークンによって特徴が支配されるという重要な観測によって動機付けられている。
この観測に基づいて、AttnRealは出力トークンからの過剰な注意をリサイクルし、それを視覚トークンに再配置することで、MLLMの言語優先への依存を軽減します。
論文 参考訳(メタデータ) (2025-03-11T11:52:37Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding [25.489832294197797]
本稿では,LVLM推論における幻覚の低減を目的とした,命令コントラストデコーディング(ICD)手法を提案する。
本手法は,マルチモーダル核融合モジュールにおいて,外乱指示が幻覚を著しく悪化させるという観察に着想を得たものである。
論文 参考訳(メタデータ) (2024-03-27T16:04:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。