論文の概要: ACT Now: Preempting LVLM Hallucinations via Adaptive Context Integration
- arxiv url: http://arxiv.org/abs/2604.00983v1
- Date: Wed, 01 Apr 2026 14:49:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:32.041929
- Title: ACT Now: Preempting LVLM Hallucinations via Adaptive Context Integration
- Title(参考訳): ACT Now:Adaptive Context IntegrationによるLVLM幻覚の回避
- Authors: Bei Yan, Yuecong Min, Jie Zhang, Shiguang Shan, Xilin Chen,
- Abstract要約: LVLM(Large-Language Models)はしばしば深刻な幻覚に悩まされる。
既存の緩和戦略は、視覚的焦点を強化するか、強い先行を抑えるために、言語的、単一段階の状態に依存している。
本研究では,適応的な文脈情報の統合を通じて幻覚を緩和する学習自由推論介入手法であるAdaptive Context in VisionTegration (ACT)を提案する。
- 参考スコア(独自算出の注目度): 71.21097024566285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) frequently suffer from severe hallucination issues. Existing mitigation strategies predominantly rely on isolated, single-step states to enhance visual focus or suppress strong linguistic priors. However, these static approaches neglect dynamic context changes across the generation process and struggles to correct inherited information loss. To address this limitation, we propose Adaptive Context inTegration (ACT), a training-free inference intervention method that mitigates hallucination through the adaptive integration of contextual information. Specifically, we first propose visual context exploration, which leverages spatio-temporal profiling to adaptively amplify attention heads responsible for visual exploration. To further facilitate vision-language alignment, we propose semantic context aggregation that marginalizes potential semantic queries to effectively aggregate visual evidence, thereby resolving the information loss caused by the discrete nature of token prediction. Extensive experiments across diverse LVLMs demonstrate that ACT significantly reduces hallucinations and achieves competitive results on both discriminative and generative benchmarks, acting as a robust and highly adaptable solution without compromising fundamental generation capabilities.
- Abstract(参考訳): LVLM(Large Vision-Language Models)はしばしば深刻な幻覚に悩まされる。
既存の緩和戦略は、視覚的焦点を強化するか、強い言語的先行を抑えるために、孤立した単一段階の状態に依存している。
しかし、これらの静的アプローチは、生成プロセス全体の動的コンテキスト変化を無視し、継承された情報損失を修正するのに苦労する。
この制限に対処するために、文脈情報の適応的統合を通じて幻覚を緩和する訓練不要推論介入法であるAdaptive Context inTegration (ACT)を提案する。
具体的には、まず、時空間プロファイリングを利用した視覚的コンテキスト探索を提案し、視覚的探索に責任を負うアテンションヘッドを適応的に増幅する。
視覚言語アライメントをより容易にするために,視覚的証拠を効果的に集約し,トークン予測の離散的性質に起因する情報損失を解決するために,潜在的な意味的クエリを疎外するセマンティックコンテキストアグリゲーションを提案する。
多様なLVLMにわたる広範囲な実験により、ACTは幻覚を著しく減少させ、差別的および生成的ベンチマークの両方で競合する結果を達成し、基本生成能力を損なうことなく、堅牢で高度に適応可能なソリューションとして機能することを示した。
関連論文リスト
- Attention-space Contrastive Guidance for Efficient Hallucination Mitigation in LVLMs [9.043999205886658]
大きな視覚言語モデルにおける幻覚は、言語が視覚的証拠を支配するときにしばしば起こる。
本稿では,視覚言語と言語のみの注意経路を構築するために,自己注意層内で動作するシングルパス機構であるContrastive Guidance(ACG)を提案する。
ACGは、計算コストを大幅に削減しつつ、最先端の忠実さとキャプション品質を達成する。
論文 参考訳(メタデータ) (2026-01-20T08:04:18Z) - Towards Mitigating Hallucinations in Large Vision-Language Models by Refining Textual Embeddings [39.83857755243316]
我々は,LVLMアーキテクチャにおける言語モダリティに対する固有のバイアスを同定する。
平均的な視覚的特徴を統合することでテキスト埋め込みを洗練させる手法を提案する。
提案手法は視覚的グラウンド化を実証的に改善し,確立されたベンチマークに対する幻覚を著しく低減する。
論文 参考訳(メタデータ) (2025-11-07T06:39:54Z) - Modality Bias in LVLMs: Analyzing and Mitigating Object Hallucination via Attention Lens [0.0]
大規模視覚言語モデル (LVLM) は、顕著なマルチモーダル理解と推論能力を示した。
LVLMはテキストのプロンプトと大きな言語モデルの内部知識に過度に依存し、視覚的手がかりと矛盾する記述を生成する傾向がある。
物体幻覚を緩和するためのトレーニング不要な手法を提案する。
論文 参考訳(メタデータ) (2025-08-04T13:40:59Z) - Grounding Language with Vision: A Conditional Mutual Information Calibrated Decoding Strategy for Reducing Hallucinations in LVLMs [51.93737995405164]
LVLM(Large Vision-Language Models)は幻覚の影響を受けやすいモデルである。
本稿では,条件付きポイントワイド・ミューチュアル・インフォメーション(C-PMI)キャリブレーション・デコーディング・ストラテジーを導入する。
提案手法は,復号効率を保ちながら,LVLMの幻覚を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-05-26T08:36:10Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - IBD: Alleviating Hallucinations in Large Vision-Language Models via
Image-Biased Decoding [37.16880672402059]
言語的先行性への過度な依存は幻覚に繋がる重要な要因として認識されている。
本稿では,新しい画像バイアスデコーディング手法を導入することにより,この問題を軽減することを提案する。
提案手法は,従来のLVLMと画像バイアスLVLMの予測を対比することにより,次の確率分布を導出する。
論文 参考訳(メタデータ) (2024-02-28T16:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。