論文の概要: Context-Aware Decoding for Faithful Vision-Language Generation
- arxiv url: http://arxiv.org/abs/2601.05939v1
- Date: Fri, 09 Jan 2026 16:50:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:50.047863
- Title: Context-Aware Decoding for Faithful Vision-Language Generation
- Title(参考訳): 忠実な視覚言語生成のための文脈認識デコーディング
- Authors: Mehrdad Fazli, Bowen Wei, Ziwei Zhu,
- Abstract要約: 視覚入力と矛盾する応答を生成する幻覚は、大きな視覚言語モデル(LVLM)の重要な限界である。
本研究では,幻覚を駆動するレイヤワイズ生成ダイナミクスを探索し,学習自由化戦略を提案する。
- 参考スコア(独自算出の注目度): 5.258492912374723
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hallucinations, generating responses inconsistent with the visual input, remain a critical limitation of large vision-language models (LVLMs), especially in open-ended tasks such as image captioning and visual reasoning. In this work, we probe the layer-wise generation dynamics that drive hallucinations and propose a training-free mitigation strategy. Employing the Logit Lens, we examine how LVLMs construct next-token distributions across decoder layers, uncovering a pronounced commitment-depth gap: truthful tokens accumulate probability mass on their final candidates earlier than hallucinatory ones. Drawing on this discovery, we introduce Context Embedding Injection (CEI), a lightweight method that harnesses the hidden state of the last input token-the context embedding-as a grounding signal to maintain visual fidelity throughout decoding and curb hallucinations. Evaluated on the CHAIR, AMBER, and MMHal-Bench benchmarks (with a maximum token length of 512), CEI outperforms state-of-the-art baselines across three LVLMs, with its dynamic variant yielding the lowest overall hallucination rates. By integrating novel mechanistic insights with a scalable intervention, this work advances the mitigation of hallucinations in LVLMs.
- Abstract(参考訳): 視覚入力と矛盾する応答を生成する幻覚は、特に画像キャプションや視覚的推論のようなオープンなタスクにおいて、大きな視覚言語モデル(LVLM)の限界である。
本研究では,幻覚を駆動するレイヤワイズ生成ダイナミクスを探索し,学習自由化戦略を提案する。
Logit Lensを用いて、LVLMがデコーダ層にまたがる次のトーケン分布をどのように構築するかを検証し、はっきりしたコミットメントと深さのギャップを明らかにする:真正なトークンは幻覚よりも早く最終候補に確率質量を蓄積する。
この発見に基づいて,最後の入力トークンの隠蔽状態であるコンテキスト埋め込み注入(CEI)を接地信号として利用し,幻覚の復号化と抑制を行う軽量な手法であるコンテキスト埋め込み注入(CEI)を導入する。
CHAIR、AMBER、MMHal-Benchベンチマーク(最大トークン長512)で評価され、CEIは3つのLVLMで最先端のベースラインを上回り、その動的変種は全体の幻覚率を最も低くする。
スケーラブルな介入と新しい機械的洞察を統合することで、この研究はLVLMにおける幻覚の緩和を促進する。
関連論文リスト
- Grounding Language with Vision: A Conditional Mutual Information Calibrated Decoding Strategy for Reducing Hallucinations in LVLMs [51.93737995405164]
LVLM(Large Vision-Language Models)は幻覚の影響を受けやすいモデルである。
本稿では,条件付きポイントワイド・ミューチュアル・インフォメーション(C-PMI)キャリブレーション・デコーディング・ストラテジーを導入する。
提案手法は,復号効率を保ちながら,LVLMの幻覚を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-05-26T08:36:10Z) - Self-Correcting Decoding with Generative Feedback for Mitigating Hallucinations in Large Vision-Language Models [65.4610281589017]
LVLM(Large Vision-Language Models)は、与えられた視覚入力と一致しない幻覚的テキスト応答を生成する傾向がある。
テキストから画像への生成モデルからのフィードバックをデコードプロセスに組み込んだ,新たなトレーニングフリーアルゴリズムである生成フィードバック付き自己修正デコード(DeGF)を導入する。
論文 参考訳(メタデータ) (2025-02-10T03:43:55Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - MetaToken: Detecting Hallucination in Image Descriptions by Meta Classification [1.3654846342364308]
トークンレベルの幻覚を無視可能なコストで検出する軽量バイナリ分類器であるMetaTokenを紹介する。
統計的解析から,大規模視覚言語モデルにおける幻覚の重要な要因を明らかにする。
提案手法の有効性を示す4種類のLVLMについて検討した。
論文 参考訳(メタデータ) (2024-05-29T15:28:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。