論文の概要: Mitigating Hallucination in Large Vision-Language Models via Adaptive Attention Calibration
- arxiv url: http://arxiv.org/abs/2505.21472v1
- Date: Tue, 27 May 2025 17:45:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.839906
- Title: Mitigating Hallucination in Large Vision-Language Models via Adaptive Attention Calibration
- Title(参考訳): アダプティブ・アテンション・キャリブレーションによる視覚・言語モデルにおける幻覚の緩和
- Authors: Mehrdad Fazli, Bowen Wei, Ziwei Zhu,
- Abstract要約: 大規模視覚言語モデル(LVLM)はマルチモーダルタスクにおいて印象的な性能を発揮するが、幻覚に悩まされることが多い。
この課題に対処するために、信頼を意識する注意フレームワークを紹介します。
- 参考スコア(独自算出の注目度): 1.7373859011890633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models (LVLMs) achieve impressive performance on multimodal tasks but often suffer from hallucination, and confidently describe objects or attributes not present in the image. Current inference-time interventions, while training-free, struggle to maintain accuracy in open-ended and long-form generation scenarios. We introduce the Confidence-Aware Attention Calibration (CAAC) framework to address this challenge by targeting two key biases: spatial perception bias, which distributes attention disproportionately across image tokens, and modality bias, which shifts focus from visual to textual inputs over time. CAAC employs a two-step approach: Visual-Token Calibration (VTC) to balance attention across visual tokens, and Adaptive Attention Re-Scaling (AAR) to reinforce visual grounding based on the model's confidence. This confidence-driven adjustment ensures consistent visual alignment during generation. Experiments on CHAIR, AMBER, and POPE benchmarks demonstrate that CAAC outperforms baselines, particularly in long-form generations, effectively reducing hallucination.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、マルチモーダルタスクにおいて印象的なパフォーマンスを達成するが、幻覚に悩まされることが多く、画像に存在しないオブジェクトや属性を確実に記述する。
現在の推論時間の介入は、トレーニングなしでは、オープンエンドおよびロングフォームの生成シナリオにおける正確性を維持するのに苦労する。
本稿では、画像トークン間で不均等に注意を分散する空間的知覚バイアスと、視覚的からテキスト的入力に時間とともに焦点を移すモダリティバイアスという2つの重要なバイアスをターゲットとして、この課題に対処するための信頼性意識校正(CAAC)フレームワークを紹介する。
CAACは2段階のアプローチを採用しており、視覚的トークン間の注意のバランスをとるためにVTC(Visual-Token Calibration)と、モデルの信頼性に基づいた視覚的グラウンドの強化のためにAAR(Adaptive Attention Re-Scaling)を採用している。
この信頼性駆動的な調整により、生成時の一貫した視覚的アライメントが保証される。
CHAIR、AMBER、POPEベンチマークの実験により、CAACは、特に長期世代において、ベースラインよりも優れ、幻覚を効果的に減少させることが示された。
関連論文リスト
- Gaze-Guided Learning: Avoiding Shortcut Bias in Visual Classification [3.1208151315473622]
本稿では,人間の視線時系列データセットであるGaze-CIFAR-10と2列視線エンコーダを紹介する。
並行して、視覚変換器(ViT)を用いて画像内容のシーケンシャルな表現を学習する。
画像特徴表現における不正確な局所化を効果的に補正する。
論文 参考訳(メタデータ) (2025-04-08T00:40:46Z) - Multi-Cue Adaptive Visual Token Pruning for Large Vision-Language Models [85.51753014478315]
本稿では,新しいプラグ・アンド・プレイ・トレーニングフリープルーニング手法であるAdaptPruneを紹介する。
空間距離とトークン類似性を適応的NMSアプローチと組み合わせることで、従来の注意に基づくプルーニングに基づいている。
当社のアプローチはトークンの重要性を総合的に評価することを保証するとともに,プルーニング決定を大幅に改善する。
論文 参考訳(メタデータ) (2025-03-11T03:58:17Z) - Mitigating Object Hallucinations in Large Vision-Language Models via Attention Calibration [22.39558434131574]
LVLM(Large Vision-Language Models)は、視覚的コンテンツと実際に一致しない応答を生成する。
我々は、単一の意味のない入力画像からバイアスを推定する、トレーニング不要なソリューションUniform Attention (UAC)を導入する。
また、画像中のオブジェクトがどこにあっても一貫した出力を強制する、微調整ソリューションであるDynamic Attention (DAC)を導入します。
論文 参考訳(メタデータ) (2025-02-04T03:27:38Z) - PAINT: Paying Attention to INformed Tokens to Mitigate Hallucination in Large Vision-Language Model [0.0]
幻覚は、しばしば注意重みの進歩的な弱体化から視覚的トークンへと生じる。
textbfPAINT (textbfPaying textbfAttention to textbfINformed textbfTokens) は、大規模視覚言語モデルの自己保持機構を介するプラグイン・アンド・プレイフレームワークである。
論文 参考訳(メタデータ) (2025-01-21T15:22:31Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - Adaptive Prompt Tuning: Vision Guided Prompt Tuning with Cross-Attention for Fine-Grained Few-Shot Learning [5.242869847419834]
コンピュータビジョンにおける微妙な分類は、限られたデータで微妙な分類を区別する必要があるため、大きな課題となる。
本稿では,適応的なプロンプトチューニングにより,コントラスト言語画像事前学習モデルを強化する手法を提案する。
論文 参考訳(メタデータ) (2024-12-19T08:51:01Z) - Dual-Image Enhanced CLIP for Zero-Shot Anomaly Detection [58.228940066769596]
本稿では,統合視覚言語スコアリングシステムを活用したデュアルイメージ強化CLIP手法を提案する。
提案手法は,画像のペアを処理し,それぞれを視覚的参照として利用することにより,視覚的コンテキストによる推論プロセスを強化する。
提案手法は視覚言語による関節異常検出の可能性を大幅に活用し,従来のSOTA法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-05-08T03:13:20Z) - More Than Just Attention: Learning Cross-Modal Attentions with
Contrastive Constraints [63.08768589044052]
本稿では,コントラストコンテンツリソーシング (CCR) とコントラストコンテンツスワッピング (CCS) の制約を提案する。
CCRとCCSの制約は、明示的な注意アノテーションを必要とせず、対照的な学習方法で注意モデルのトレーニングを監督する。
Flickr30kとMS-COCOのデータセットの実験は、これらの注意制約を2つの最先端の注意ベースモデルに統合することで、モデルのパフォーマンスが向上することを示した。
論文 参考訳(メタデータ) (2021-05-20T08:48:10Z) - Visual Alignment Constraint for Continuous Sign Language Recognition [74.26707067455837]
ビジョンベースの継続的署名言語認識は、画像シーケンスから未分割ジェスチャーを認識することを目的とする。
本研究は,最近のCTCに基づくCSLRにおける過剰適合問題を再考し,特徴抽出器の訓練不足によるものである。
視覚アライメント制約(vac)により、よりアライメントの監督により特徴抽出器を強化する。
論文 参考訳(メタデータ) (2021-04-06T07:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。