論文の概要: Look Closer! An Adversarial Parametric Editing Framework for Hallucination Mitigation in VLMs
- arxiv url: http://arxiv.org/abs/2512.21999v1
- Date: Fri, 26 Dec 2025 11:56:45 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:54:25.28226
- Title: Look Closer! An Adversarial Parametric Editing Framework for Hallucination Mitigation in VLMs
- Title(参考訳): 近視! VLMにおける幻覚除去のための逆パラメトリック編集フレームワーク
- Authors: Jiayu Hu, Beibei Li, Jiangwei Xia, Yanjun Qin, Bing Ji, Zhongshi He,
- Abstract要約: Visionivate-Language Models (VLM)は、有望な実用的な応用のために、AIコミュニティで注目を集めている。
近年の研究では、これらの幻覚はVLMの言語的先行性への過度な依存と視覚的特徴統合の欠如に起因している。
本稿では,textbfActtextbfLocate-textbfEdit textbfAdversarially Parametric editing framework for Hallucination mitigation inVLMsを提案する。
- 参考スコア(独自算出の注目度): 6.645440928271175
- License:
- Abstract: While Vision-Language Models (VLMs) have garnered increasing attention in the AI community due to their promising practical applications, they exhibit persistent hallucination issues, generating outputs misaligned with visual inputs. Recent studies attribute these hallucinations to VLMs' over-reliance on linguistic priors and insufficient visual feature integration, proposing heuristic decoding calibration strategies to mitigate them. However, the non-trainable nature of these strategies inherently limits their optimization potential. To this end, we propose an adversarial parametric editing framework for Hallucination mitigation in VLMs, which follows an \textbf{A}ctivate-\textbf{L}ocate-\textbf{E}dit \textbf{A}dversarially paradigm. Specifically, we first construct an activation dataset that comprises grounded responses (positive samples attentively anchored in visual features) and hallucinatory responses (negative samples reflecting LLM prior bias and internal knowledge artifacts). Next, we identify critical hallucination-prone parameter clusters by analyzing differential hidden states of response pairs. Then, these clusters are fine-tuned using prompts injected with adversarial tuned prefixes that are optimized to maximize visual neglect, thereby forcing the model to prioritize visual evidence over inherent parametric biases. Evaluations on both generative and discriminative VLM tasks demonstrate the significant effectiveness of ALEAHallu in alleviating hallucinations. Our code is available at https://github.com/hujiayu1223/ALEAHallu.
- Abstract(参考訳): VLM(Vision-Language Models)は、有望な実用的な応用のためにAIコミュニティで注目を集めている一方で、持続的な幻覚障害を示し、視覚的な入力と不一致な出力を生成する。
近年の研究では、これらの幻覚はVLMが言語的先行性に過度に依存していることと、視覚的特徴の統合が不十分であることに起因し、それらを緩和するためにヒューリスティックな復号化戦略を提案する。
しかし、これらの戦略の訓練不能な性質は、本質的に最適化の可能性を制限する。
そこで本研究では, VLMにおけるハロシン化緩和のための逆数パラメトリック編集フレームワークを提案し, 逆数パラダイムとして \textbf{A}ctivate-\textbf{L}ocate-\textbf{E}dit \textbf{A}dversarially paradigm を提案する。
具体的には、まず、接地応答(視覚的特徴に注意して固定された正のサンプル)と幻覚応答(LCM先行バイアスと内部知識アーティファクトを反映した負のサンプル)からなるアクティベーションデータセットを構築した。
次に、応答対の差分隠蔽状態を解析することにより、臨界幻覚型パラメータクラスタを同定する。
次に、これらのクラスタは、視覚的無視を最大化するために最適化された逆調整プレフィックスを注入したプロンプトを使用して微調整されるため、固有パラメトリックバイアスよりも視覚的エビデンスを優先せざるを得ない。
生成的および識別的VLMタスクの評価は、幻覚の緩和におけるALEAHalluの有意な効果を示す。
私たちのコードはhttps://github.com/hujiayu1223/ALEAHallu.comから入手可能です。
関連論文リスト
- Mitigating Hallucinations in Large Vision-Language Models by Self-Injecting Hallucinations [73.37711261605271]
幻覚緩和法は主に嗜好アライメントに基づいており、嗜好データ収集には外部の人間のアノテーションや補助モデルが必要である。
本稿では,外部依存を伴わない幻覚を緩和する新規で一般化可能な手法である自己注入による自律的選好アライメント(APASI)を提案する。
APASIはターゲットのLVLMを利用して、生成した応答に幻覚を自己注入し、好みのレベルが異なるペアの応答を生成する。
論文 参考訳(メタデータ) (2025-09-14T14:26:53Z) - Mitigating Hallucinations in Multimodal LLMs via Object-aware Preference Optimization [55.543583937522804]
MLLM(Multimodal Large Language Models)は、様々なタスクに対処するための統一インターフェースとして登場した。
多くのベンチマークで最先端の結果が誇示されているにもかかわらず、長年の問題はMLLMが幻覚を起こす傾向にある。
本稿では,幻覚の問題をアライメント問題として取り上げ,幻覚を伴わないコンテンツを生成するためのMLLMのステアリングを試みる。
論文 参考訳(メタデータ) (2025-08-27T18:02:04Z) - OViP: Online Vision-Language Preference Learning for VLM Hallucination [44.14029765850719]
大型視覚言語モデル(LVLM)は幻覚に弱いままであり、しばしば視覚入力と一致しないコンテンツを生成する。
本稿では,モデル自身の幻覚に基づいて,コントラスト学習データを動的に構築するオンラインビジョン言語嗜好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T19:26:09Z) - Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [78.78822033285938]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - Poison as Cure: Visual Noise for Mitigating Object Hallucinations in LVMs [7.920981206857122]
大型視覚言語モデル(LVM)は、大型言語モデル(LLM)を視覚的知覚能力で拡張する。
信頼性を損なう大きな課題は、LVMが妥当だが事実的に不正確な情報を生成できるというオブジェクト幻覚である。
本稿では,この幻覚を緩和するための新しい視覚的対向摂動(VAP)法を提案する。
論文 参考訳(メタデータ) (2025-01-31T14:31:00Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [40.930238150365795]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。