論文の概要: Prefill-Time Intervention for Mitigating Hallucination in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2604.25642v1
- Date: Tue, 28 Apr 2026 13:42:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.880229
- Title: Prefill-Time Intervention for Mitigating Hallucination in Large Vision-Language Models
- Title(参考訳): 視覚・言語モデルにおける幻覚の緩和のための予備的時間的介入
- Authors: Chengsheng Zhang, Chenghao Sun, Xinyan Jiang, Wei Li, Xinmei Tian,
- Abstract要約: Prefill-Time Intervention (PTI)は、プレフィル期間中に一度だけ介入する新しいステアリングパラダイムである。
PTIはモダリティを意識し、視覚的およびテキスト的表現の異なる方向を導出する。
- 参考スコア(独自算出の注目度): 14.32953618311784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) have achieved remarkable progress in visual-textual understanding, yet their reliability is critically undermined by hallucinations, i.e., the generation of factually incorrect or inconsistent responses. While recent studies using steering vectors demonstrated promise in reducing hallucinations, a notable challenge remains: they inadvertently amplify the severity of residual hallucinations. We attribute this to their exclusive focus on the decoding stage, where errors accumulate autoregressively and progressively worsen subsequent hallucinatory outputs. To address this, we propose Prefill-Time Intervention (PTI), a novel steering paradigm that intervenes only once during the prefill stage, enhancing the initial Key-Value (KV) cache before error accumulation occurs. Specifically, PTI is modality-aware, deriving distinct directions for visual and textual representations. This intervention is decoupled to steer keys toward visually-grounded objects and values to filter background noise, correcting hallucination-prone representations at their source. Extensive experiments demonstrate PTI's significant performance in mitigating hallucinations and its generalizability across diverse decoding strategies, LVLMs, and benchmarks. Moreover, PTI is orthogonal to existing decoding-stage methods, enabling plug-and-play integration and further boosting performance. Code is available at: https://github.com/huaiyi66/PTI.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、視覚的テキスト理解において顕著な進歩を遂げているが、その信頼性は幻覚、すなわち、事実的に誤りまたは矛盾した応答の生成によって著しく損なわれている。
ステアリングベクターを用いた最近の研究は幻覚を減少させる可能性を証明しているが、注目すべき課題は、必然的に残存幻覚の重症度を増幅することである。
これは、エラーが自己回帰的に蓄積され、徐々に幻覚出力が悪化するデコードステージに排他的に焦点が当てられているためである。
そこで本研究では,プリフィル期間中に一度だけ介入する新しいステアリングパラダイムであるPrefill-Time Intervention (PTI)を提案する。
具体的には、PTIはモダリティを意識し、視覚的およびテキスト的表現の異なる方向を導出する。
この介入は、視覚的に接地されたオブジェクトと値に対するステアキーに分離され、背景ノイズをフィルタリングし、そのソースにおける幻覚の傾向を補正する。
大規模な実験では、PTIが幻覚を緩和し、様々な復号戦略、LVLM、ベンチマークにまたがる一般化可能性を示す。
さらに、PTIは既存の復号段階の手法と直交しており、プラグ・アンド・プレイの統合とさらなる性能向上を可能にしている。
コードは、https://github.com/huaiyi66/PTI.comで入手できる。
関連論文リスト
- When Prompts Override Vision: Prompt-Induced Hallucinations in LVLMs [54.411658510110215]
本研究では,異なる要因が幻覚を誘発する程度をよりよく理解するために,HauScopeを提案する。
HalluVL-DPOは、市販のLVLMをより視覚的な応答に向けて微調整するためのフレームワークである。
論文 参考訳(メタデータ) (2026-04-23T17:54:36Z) - VCE: A zero-cost hallucination mitigation method of LVLMs via visual contrastive editing [70.82867621856968]
大きな視覚言語モデル(LVLM)は、しばしば物体幻覚(OH)に悩まされる
近年の研究では、幻覚の問題は言語の先行に起因している可能性が示唆されている。
本稿では視覚コントラスト編集(VCE)を提案する。
論文 参考訳(メタデータ) (2026-04-21T12:40:07Z) - Mitigating Entangled Steering in Large Vision-Language Models for Hallucination Reduction [49.96701537295129]
LVLM(Large Vision-Language Models)は、モーダルなタスク間で大きな成功を収めてきたが、幻覚によって妨げられている。
既存の方法は幻覚を緩和するが、しばしば生成行動を変化させ、結果として出力が短くなり、トークンの分布がシフトする。
幻覚緩和のための制御および選択的な潜伏介入を行う効果的なプラグアンドプレイフレームワークであるMESAを提案する。
論文 参考訳(メタデータ) (2026-04-09T07:31:27Z) - Residual Decoding: Mitigating Hallucinations in Large Vision-Language Models via History-Aware Residual Guidance [31.7541034166056]
LVLM(Large Vision-Language Models)は、画像テキスト入力から効果的に推論し、様々なマルチモーダルタスクでうまく機能する。
彼らは言語の先行性に影響され、しばしば幻覚を生じさせる。
この問題に対処するためにResidual Decoding (ResDec)を提案する。
論文 参考訳(メタデータ) (2026-02-01T06:12:05Z) - PruneHal: Reducing Hallucinations in Multi-modal Large Language Models through Adaptive KV Cache Pruning [87.35309934860938]
大型言語モデル(MLLM)における幻覚は、視覚トークンに割り当てられた注意不足と強く関連している。
我々は、適応的なKVキャッシュプルーニングを活用し、重要な視覚情報に焦点をあてるトレーニングフリーでシンプルで効果的な方法である textbfPruneHal を提案する。
論文 参考訳(メタデータ) (2025-10-22T02:41:07Z) - Mitigating Hallucinations in Large Vision-Language Models by Self-Injecting Hallucinations [73.37711261605271]
幻覚緩和法は主に嗜好アライメントに基づいており、嗜好データ収集には外部の人間のアノテーションや補助モデルが必要である。
本稿では,外部依存を伴わない幻覚を緩和する新規で一般化可能な手法である自己注入による自律的選好アライメント(APASI)を提案する。
APASIはターゲットのLVLMを利用して、生成した応答に幻覚を自己注入し、好みのレベルが異なるペアの応答を生成する。
論文 参考訳(メタデータ) (2025-09-14T14:26:53Z) - OViP: Online Vision-Language Preference Learning for VLM Hallucination [44.14029765850719]
大型視覚言語モデル(LVLM)は幻覚に弱いままであり、しばしば視覚入力と一致しないコンテンツを生成する。
本稿では,モデル自身の幻覚に基づいて,コントラスト学習データを動的に構築するオンラインビジョン言語嗜好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T19:26:09Z) - Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [78.78822033285938]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - Reducing Hallucinations in Vision-Language Models via Latent Space Steering [34.1755878632361]
幻覚は、アプリケーションに大規模な視覚言語モデル(LVLM)を配置する上での課題である。
本稿では,視覚的特徴の安定性を高めるために,視覚とテクスチュアル・インターベンション(VTI, Visual and Textual Intervention)を提案する。
論文 参考訳(メタデータ) (2024-10-21T08:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。