論文の概要: AFTER: Mitigating the Object Hallucination of LVLM via Adaptive Factual-Guided Activation Editing
- arxiv url: http://arxiv.org/abs/2601.01957v1
- Date: Mon, 05 Jan 2026 10:02:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.95708
- Title: AFTER: Mitigating the Object Hallucination of LVLM via Adaptive Factual-Guided Activation Editing
- Title(参考訳): 後:適応的Factual-Guided Activation EditingによるLVLMの物体幻覚の修正
- Authors: Tianbo Wang, Yuqing Ma, Kewei Liao, Zhange Zhang, Simin Li, Jinyang Guo, Xianglong Liu,
- Abstract要約: LVLM(Large Vision-Language Models)は、物体の幻覚に影響を受けやすい。
LVLMの内部活性化の編集は、最小コストで幻覚を緩和するのに有望な効果を示した。
幻覚軽減のための適応的ファクトガイド型ビジュアルテキスト編集法を提案する。
- 参考スコア(独自算出の注目度): 32.581474255649894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) have achieved substantial progress in cross-modal tasks. However, due to language bias, LVLMs are susceptible to object hallucination, which can be primarily divided into category, attribute, and relation hallucination, significantly impeding the trustworthy AI applications. Editing the internal activations of LVLMs has shown promising effectiveness in mitigating hallucinations with minimal cost. However, previous editing approaches neglect the effective guidance offered by factual textual semantics, thereby struggling to explicitly mitigate language bias. To address these issues, we propose Adaptive Factual-guided Visual-Textual Editing for hallucination mitigation (AFTER), which comprises Factual-Augmented Activation Steering (FAS) and Query-Adaptive Offset Optimization (QAO), to adaptively guides the original biased activations towards factual semantics. Specifically, FAS is proposed to provide factual and general guidance for activation editing, thereby explicitly modeling the precise visual-textual associations. Subsequently, QAO introduces a query-aware offset estimator to establish query-specific editing from the general steering vector, enhancing the diversity and granularity of editing. Extensive experiments on standard hallucination benchmarks across three widely adopted LVLMs validate the efficacy of the proposed AFTER, notably achieving up to a 16.3% reduction of hallucination over baseline on the AMBER benchmark. Our code and data will be released for reproducibility.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、クロスモーダルタスクにおいて大きな進歩を遂げた。
しかし、言語バイアスのため、LVLMは、主にカテゴリー、属性、関係幻覚に分けられる対象幻覚に感受性があり、信頼できるAI応用を著しく阻害する。
LVLMの内部活性化の編集は、最小コストで幻覚を緩和するのに有望な効果を示した。
しかし, 従来の編集手法は, 事実文意味論による効果的な指導を無視し, 言語バイアスの緩和に苦慮していた。
これらの問題に対処するため,Factual-Augmented Activation Steering (FAS) とQuery-Adaptive Offset Optimization (QAO) を組み合わせた幻覚修正のための適応的Factual-Guided Visual-Textual Editing (AFTER)を提案する。
具体的には、FASは、アクティベーション編集のための現実的かつ一般的なガイダンスを提供することにより、正確な視覚・テクスチャ関連を明示的にモデル化することを提案する。
その後、QAOは、一般的なステアリングベクトルからクエリ固有の編集を確立するためのクエリ対応オフセット推定器を導入し、編集の多様性と粒度を高める。
広く採用されている3つのLVLMの標準幻覚ベンチマークの広範な実験は、提案後の効果を検証し、特にAMBERベンチマークの基準値よりも16.3%の幻覚を減少させた。
私たちのコードとデータは再現性のためにリリースされます。
関連論文リスト
- Look Closer! An Adversarial Parametric Editing Framework for Hallucination Mitigation in VLMs [6.645440928271175]
Visionivate-Language Models (VLM)は、有望な実用的な応用のために、AIコミュニティで注目を集めている。
近年の研究では、これらの幻覚はVLMの言語的先行性への過度な依存と視覚的特徴統合の欠如に起因している。
本稿では,textbfActtextbfLocate-textbfEdit textbfAdversarially Parametric editing framework for Hallucination mitigation inVLMsを提案する。
論文 参考訳(メタデータ) (2025-12-26T11:56:45Z) - Beyond Single Models: Mitigating Multimodal Hallucinations via Adaptive Token Ensemble Decoding [41.828387997311474]
LVLM(Large Vision-Language Models)は画像キャプションや視覚的質問応答といったマルチモーダルタスクにおいて,近年顕著な成果を上げている。
それらは、まだ存在しない、または誤認されたオブジェクトの記述を生成する、オブジェクト幻覚の傾向にある。
本稿では,複数のLVLMからの予測を集約することで幻覚を緩和する,学習不要でトークンレベルのアンサンブルフレームワークであるAdaptive Token Ensemble Decoding (ated)を提案する。
論文 参考訳(メタデータ) (2025-10-21T06:11:24Z) - Multi-stage Prompt Refinement for Mitigating Hallucinations in Large Language Models [49.435669307386156]
MPR(Multi-stage Prompt Refinement)は、複数のステージにわたる不整形プロンプトを体系的に改善するためのフレームワークである。
MPRは、追加の文脈でプロンプトの明快さを反復的に強化し、最も関連する入力を優先順位付けするためにランク付けされた自己回帰機構を使用する。
幻覚ベンチマークの結果、MPRは原型と比較して85%以上の勝利率を達成した。
論文 参考訳(メタデータ) (2025-10-14T00:31:36Z) - Mitigating Hallucinations in Large Vision-Language Models by Self-Injecting Hallucinations [73.37711261605271]
幻覚緩和法は主に嗜好アライメントに基づいており、嗜好データ収集には外部の人間のアノテーションや補助モデルが必要である。
本稿では,外部依存を伴わない幻覚を緩和する新規で一般化可能な手法である自己注入による自律的選好アライメント(APASI)を提案する。
APASIはターゲットのLVLMを利用して、生成した応答に幻覚を自己注入し、好みのレベルが異なるペアの応答を生成する。
論文 参考訳(メタデータ) (2025-09-14T14:26:53Z) - CutPaste&Find: Efficient Multimodal Hallucination Detector with Visual-aid Knowledge Base [29.477973983931083]
LVLM出力の幻覚を検出する軽量でトレーニング不要なフレームワークであるCutPaste&Findを提案する。
私たちのフレームワークの中核は、リッチなエンティティ属性関係と関連するイメージ表現をエンコードするビジュアルエイドの知識ベースです。
類似度スコアを改良するスケーリング係数を導入し, 地中画像とテキストのペアであっても, 最適下アライメントの問題を緩和する。
論文 参考訳(メタデータ) (2025-02-18T07:06:36Z) - Mitigating Hallucinations in Large Vision-Language Models with Internal Fact-based Contrastive Decoding [5.424048651554831]
内部Fact-based Contrastive Decoding (IFCD)は、大規模視覚言語モデル(LVLM)の推論過程における幻覚の緩和と抑制を目的としている。
IFCDはLVLMの出力を校正し、最終予測から幻覚ロジットを効果的に除去する。
実験の結果, IFCD はPOPE では平均9% の精度向上, MME では8% の精度向上を実現し, オブジェクトレベルの幻覚と属性レベルの幻覚の両方を著しく軽減することがわかった。
論文 参考訳(メタデータ) (2025-02-03T05:08:35Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Mitigating Object Hallucination in Large Vision-Language Models via Image-Grounded Guidance [51.30560006045442]
Image-gRounded guIdaNcE (MARINE)は、トレーニングフリーかつAPIフリーのフレームワークである。
MARINEは、LVLMに画像グラウンドガイダンスを導入することにより、推論中の物体の幻覚を効果的かつ効率的に低減する。
私たちのフレームワークの柔軟性は、さらに複数のビジョンモデルの統合を可能にし、より信頼性が高く堅牢なオブジェクトレベルのガイダンスを可能にします。
論文 参考訳(メタデータ) (2024-02-13T18:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。