論文の概要: KVSmooth: Mitigating Hallucination in Multi-modal Large Language Models through Key-Value Smoothing
- arxiv url: http://arxiv.org/abs/2602.04268v1
- Date: Wed, 04 Feb 2026 06:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.412174
- Title: KVSmooth: Mitigating Hallucination in Multi-modal Large Language Models through Key-Value Smoothing
- Title(参考訳): KVSmooth:キーバリュー平滑化によるマルチモーダル大言語モデルの幻覚の緩和
- Authors: Siyu Jiang, Feiyang Chen, Xiaojin Zhang, Kun He,
- Abstract要約: KVSmoothは、隠れた状態に対して注意エントロピー誘導適応平滑化を行うことで幻覚を緩和する、トレーニングフリーでプラグアンドプレイの手法である。
実験では、KVSmoothは全体的な性能を改善しながら幻覚を著しく減少させる。
- 参考スコア(独自算出の注目度): 12.470317427827714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the significant progress of Multimodal Large Language Models (MLLMs) across diverse tasks, hallucination -- corresponding to the generation of visually inconsistent objects, attributes, or relations -- remains a major obstacle to their reliable deployment. Unlike pure language models, MLLMs must ground their generation process in visual inputs. However, existing models often suffer from semantic drift during decoding, causing outputs to diverge from visual facts as the sequence length increases. To address this issue, we propose KVSmooth, a training-free and plug-and-play method that mitigates hallucination by performing attention-entropy-guided adaptive smoothing on hidden states. Specifically, KVSmooth applies an exponential moving average (EMA) to both keys and values in the KV-Cache, while dynamically quantifying the sink degree of each token through the entropy of its attention distribution to adaptively adjust the smoothing strength. Unlike computationally expensive retraining or contrastive decoding methods, KVSmooth operates efficiently during inference without additional training or model modification. Extensive experiments demonstrate that KVSmooth significantly reduces hallucination ($\mathit{CHAIR}_{S}$ from $41.8 \rightarrow 18.2$) while improving overall performance ($F_1$ score from $77.5 \rightarrow 79.2$), achieving higher precision and recall simultaneously. In contrast, prior methods often improve one at the expense of the other, validating the effectiveness and generality of our approach.
- Abstract(参考訳): 多様なタスクにわたるMLLM(Multimodal Large Language Model)の著しい進歩にもかかわらず、視覚的に一貫性のないオブジェクト、属性、関係の生成に対応する幻覚は、信頼性の高いデプロイメントにおいて大きな障害となっている。
純粋な言語モデルとは異なり、MLLMは生成過程を視覚的に入力しなければならない。
しかし、既存のモデルはデコード中に意味的なドリフトに悩まされ、シーケンスの長さが増加するにつれて、出力は視覚的な事実から分岐する。
この問題に対処するために,隠れ状態に対して注意エントロピー誘導適応平滑化を行うことにより幻覚を緩和する,トレーニングフリーでプラグアンドプレイのKVSmoothを提案する。
具体的には、KVSmoothはKVキャッシュのキーと値の両方に指数移動平均(EMA)を適用し、注意分布のエントロピーを通じて各トークンのシンク度を動的に定量化し、スムージング強度を適応的に調整する。
KVSmoothは計算コストのかかる復調法やコントラスト復号法とは異なり、追加のトレーニングやモデル修正なしに推論中に効率的に動作する。
大規模な実験では、KVSmoothは幻覚(41.8 \rightarrow 18.2$)を著しく低減し、全体的なパフォーマンス(77.5 \rightarrow 79.2$)を改善し、高い精度とリコールを同時に達成している。
対照的に、先行手法は他方を犠牲にして改善され、我々のアプローチの有効性と一般化が検証される。
関連論文リスト
- MAD: Modality-Adaptive Decoding for Mitigating Cross-Modal Hallucinations in Multimodal Large Language Models [45.58164536222542]
MLLM(Multimodal Large Language Models)は、あるモダリティが他のモダリティに不適切な影響を及ぼし、製造された出力に繋がる、クロスモーダル幻覚に悩まされる。
本稿では,タスク要求に基づいて適応的にモダリティ固有のデコードブランチを重み付けするトレーニングフリーな手法である,モーダリティ適応デコード(MAD)を提案する。
提案手法は, 自己評価による明示的なモダリティ認識が, 既存のコントラスト復号法への原則的拡張として, 頑健なマルチモーダル推論に不可欠であることを示す。
論文 参考訳(メタデータ) (2026-01-29T02:30:32Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models [85.30893355216486]
我々は,異なるdMLLMアーキテクチャとタスクを用いて,視覚的トークン冗長性がどのように進化するかを検討する。
本研究により, 視覚的冗長性は, 長時間のタスクを処理しながら, オフスクラッチdMLLMでのみ現れることが明らかとなった。
層スキッピングはAR-to-diffusion dMLLMの加速に有効であるのに対し、プログレッシブプルーニングやレイトステッププルーニングはストクラッチdMLLMよりも効果的である。
論文 参考訳(メタデータ) (2025-11-19T04:13:36Z) - Beyond Single Models: Mitigating Multimodal Hallucinations via Adaptive Token Ensemble Decoding [41.828387997311474]
LVLM(Large Vision-Language Models)は画像キャプションや視覚的質問応答といったマルチモーダルタスクにおいて,近年顕著な成果を上げている。
それらは、まだ存在しない、または誤認されたオブジェクトの記述を生成する、オブジェクト幻覚の傾向にある。
本稿では,複数のLVLMからの予測を集約することで幻覚を緩和する,学習不要でトークンレベルのアンサンブルフレームワークであるAdaptive Token Ensemble Decoding (ated)を提案する。
論文 参考訳(メタデータ) (2025-10-21T06:11:24Z) - Efficient Video Sampling: Pruning Temporally Redundant Tokens for Faster VLM Inference [5.146388234814547]
長いビデオはしばしば現代の言語モデルのトークン予算を超え、厳しいコンテキスト制限とレイテンシの問題に繋がる。
本稿では,時間的に静的なパッチを識別・プルーニングすることで,ビデオ中のトークンの冗長性を低減できる簡易なプラグイン・アンド・プレイ方式であるEfficient Video Sampling (EVS)を紹介する。
EVSは意味的忠実性を維持しながらトークン数を大幅に削減し、より高速な推論とより長い入力シーケンスを可能にする。
論文 参考訳(メタデータ) (2025-10-16T12:34:38Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - ClearSight: Visual Signal Enhancement for Object Hallucination Mitigation in Multimodal Large language Models [28.24397677839652]
マルチモーダル大言語モデル(MLLM)におけるオブジェクト幻覚を軽減するために、コントラストデコーディング戦略が広く用いられている。
モデル中層における視覚信号に注意を向けるプラグイン・アンド・プレイ技術であるVisual Amplification Fusion (VAF)を提案する。
VAFは、生成された出力のコヒーレンスと精度を維持しながら、推論速度に影響を与えることなく、様々なMLLMの幻覚を著しく低減する。
論文 参考訳(メタデータ) (2025-03-17T12:30:40Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。