論文の概要: SAKED: Mitigating Hallucination in Large Vision-Language Models via Stability-Aware Knowledge Enhanced Decoding
- arxiv url: http://arxiv.org/abs/2602.09825v1
- Date: Tue, 10 Feb 2026 14:33:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.589112
- Title: SAKED: Mitigating Hallucination in Large Vision-Language Models via Stability-Aware Knowledge Enhanced Decoding
- Title(参考訳): SAKED:安定性を考慮した知識強化デコードによる大規模視覚言語モデルにおける幻覚の緩和
- Authors: Zhaoxu Li, Chenqi Kong, Peijun Bao, Song Xia, Yi Tu, Yi Yu, Xinghao Jiang, Xudong Jiang,
- Abstract要約: LVLM(Large Vision-Language Models)の幻覚は、現実世界のアプリケーションに重大なセキュリティと信頼性のリスクをもたらす。
モデルの内部知識の不安定性がLVLM幻覚にどのように寄与するかを考察する。
本稿では,階層的知識安定性スコア(KSS)を導入し,モデル全体にわたって知識安定性を定量化するSAKEDを提案する。
- 参考スコア(独自算出の注目度): 35.40674098203589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucinations in Large Vision-Language Models (LVLMs) pose significant security and reliability risks in real-world applications. Inspired by the observation that humans are more error-prone when uncertain or hesitant, we investigate how instability in a model 's internal knowledge contributes to LVLM hallucinations. We conduct extensive empirical analyses from three perspectives, namely attention heads, model layers, and decoding tokens, and identify three key hallucination patterns: (i) visual activation drift across attention heads, (ii) pronounced knowledge fluctuations across layers, and (iii) visual focus distraction between neighboring output tokens. Building on these findings, we propose Stability-Aware Knowledge-Enhanced Decoding (SAKED), which introduces a layer-wise Knowledge Stability Score (KSS) to quantify knowledge stability throughout the model. By contrasting the most stability-aware and stability-agnostic layers, SAKED suppresses decoding noise and dynamically leverages the most reliable internal knowledge for faithful token generation. Moreover, SAKED is training-free and can be seamlessly integrated into different architectures. Extensive experiments demonstrate that SAKED achieves state-of-the-art performance for hallucination mitigation on various models, tasks, and benchmarks.
- Abstract(参考訳): LVLM(Large Vision-Language Models)の幻覚は、現実世界のアプリケーションに重大なセキュリティと信頼性のリスクをもたらす。
モデルの内部知識の不安定性がLVLM幻覚にどのように寄与するかを考察する。
我々は、注意頭、モデルレイヤー、復号トークンという3つの視点から広範な経験的分析を行い、3つの主要な幻覚パターンを特定します。
(i)視覚的アクティベーションが注目頭を通して漂うこと。
(二)層にまたがる知識変動の発音
三 近隣の出力トークン間の視覚的焦点ずれ
これらの知見に基づいて,モデル全体の知識安定性を定量化する階層的知識安定スコア(KSS)を導入し,SAKED(Stable-Aware Knowledge-Enhanced Decoding)を提案する。
SAKEDは、最も安定性に敏感な層と安定性に依存しない層を対比することにより、復号ノイズを抑制し、信頼できるトークン生成のための最も信頼性の高い内部知識を動的に活用する。
さらに、SAKEDはトレーニングフリーで、異なるアーキテクチャにシームレスに統合できる。
広範囲な実験により、SAKEDは様々なモデル、タスク、ベンチマークにおける幻覚の緩和のために最先端のパフォーマンスを達成した。
関連論文リスト
- Vision-Language Introspection: Mitigating Overconfident Hallucinations in MLLMs via Interpretable Bi-Causal Steering [33.3588824921581]
メタ認知的自己補正プロセスをシミュレートするトレーニングフリー推論フレームワークであるVision-Language Introspection (VLI)を導入する。
VLIは高度なモデルで最先端のパフォーマンスを実現し、MMHal-Benchではオブジェクト幻覚率を12.67%削減し、POPEでは精度を5.8%向上した。
論文 参考訳(メタデータ) (2026-01-08T17:49:13Z) - FaithSCAN: Model-Driven Single-Pass Hallucination Detection for Faithful Visual Question Answering [14.550872089352943]
FaithSCANは視覚言語モデルの豊富な内部信号を利用して幻覚を検出する軽量ネットワークである。
本稿では,LLM-as-a-JudgeパラダイムをVQA幻覚に拡張し,モデル依存型監視信号の自動生成のための低コスト戦略を提案する。
深い分析により、幻覚は視覚知覚、相互モーダル推論、言語復号における系統的な内部状態の変化から生じることが示された。
論文 参考訳(メタデータ) (2026-01-01T09:19:39Z) - HaluNet: Multi-Granular Uncertainty Modeling for Efficient Hallucination Detection in LLM Question Answering [12.183015986299438]
マルチグラニュラートークンレベルの不確実性を統合する軽量でトレーニング可能なニューラルネットワークフレームワークである textbfHaluNet を提案する。
SQuAD、TriviaQA、Natural Questionsの実験は、HaluNetが強力な検出性能と良好な計算効率を提供することを示している。
論文 参考訳(メタデータ) (2025-12-31T02:03:10Z) - Revealing Perception and Generation Dynamics in LVLMs: Mitigating Hallucinations via Validated Dominance Correction [59.801614364841775]
LVLM(Large Vision-Language Models)は目覚ましい能力を示しているが、幻覚は依然として持続的な課題である。
本研究は,LVLMにおける視覚知覚とトークン生成の内部進化の系統的解析である。
我々は,VDC(d Dominance Correction)戦略を考案し,不要なトークンを検出し,検証済みトークンに置き換えて出力信頼性を向上させる。
論文 参考訳(メタデータ) (2025-12-21T17:05:42Z) - SHALE: A Scalable Benchmark for Fine-grained Hallucination Evaluation in LVLMs [52.03164192840023]
LVLM(Large Vision-Language Models)は、いまだ幻覚に悩まされている。
本稿では,スケーラブルで制御可能で多様な評価データを生成する自動データ構築パイプラインを提案する。
我々は,忠実度と事実性幻覚の両方を評価するためのベンチマークであるSHALEを構築した。
論文 参考訳(メタデータ) (2025-08-13T07:58:01Z) - Visual hallucination detection in large vision-language models via evidential conflict [24.465497252040294]
Dempster-Shafer理論(DST)に基づく不確実性推定によるLVLMの視覚幻覚検出法
そこで本研究では,LVLMの視覚幻覚検出手法として,DST(Dempster-Shafer theory)を用いた第1次視覚幻覚検出法を提案する。
論文 参考訳(メタデータ) (2025-06-24T11:03:10Z) - Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy [53.07517728420411]
低レベル視覚タスクにおける幻覚に焦点を当てた最初のインストラクションデータベースを提案する。
低レベル視覚タスクにおけるモデルの知覚と理解能力を向上させるための自己認識障害除去(SAFEQA)モデルを提案する。
低レベルの視覚課題に対する総合的な実験を行い、提案手法がこれらの課題におけるモデルの自己認識を著しく向上し、幻覚を低減させることを示す。
論文 参考訳(メタデータ) (2025-03-26T16:05:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。