論文の概要: The Hidden Life of Tokens: Reducing Hallucination of Large Vision-Language Models via Visual Information Steering
- arxiv url: http://arxiv.org/abs/2502.03628v1
- Date: Wed, 05 Feb 2025 21:34:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:34:30.683151
- Title: The Hidden Life of Tokens: Reducing Hallucination of Large Vision-Language Models via Visual Information Steering
- Title(参考訳): 視覚情報ステアリングによる大規模視覚言語モデルの幻覚の低減
- Authors: Zhuowei Li, Haizhou Shi, Yunhe Gao, Di Liu, Zhenting Wang, Yuxiao Chen, Ting Liu, Long Zhao, Hao Wang, Dimitris N. Metaxas,
- Abstract要約: 生成過程を通してトークンログのランキングを検証し,幻覚の内的ダイナミクスについて検討する。
本稿では,真の情報を促進しつつ幻覚を減少させるトレーニングフリーな推論時間介入フレームワークであるVISTAを提案する。
- 参考スコア(独自算出の注目度): 42.09744951074433
- License:
- Abstract: Large Vision-Language Models (LVLMs) can reason effectively over both textual and visual inputs, but they tend to hallucinate syntactically coherent yet visually ungrounded contents. In this paper, we investigate the internal dynamics of hallucination by examining the tokens logits rankings throughout the generation process, revealing three key patterns in how LVLMs process information: (1) gradual visual information loss -- visually grounded tokens gradually become less favored throughout generation, and (2) early excitation -- semantically meaningful tokens achieve peak activation in the layers earlier than the final layer. (3) hidden genuine information -- visually grounded tokens though not being eventually decided still retain relatively high rankings at inference. Based on these insights, we propose VISTA (Visual Information Steering with Token-logit Augmentation), a training-free inference-time intervention framework that reduces hallucination while promoting genuine information. VISTA works by combining two complementary approaches: reinforcing visual information in activation space and leveraging early layer activations to promote semantically meaningful decoding. Compared to existing methods, VISTA requires no external supervision and is applicable to various decoding strategies. Extensive experiments show that VISTA on average reduces hallucination by abount 40% on evaluated open-ended generation task, and it consistently outperforms existing methods on four benchmarks across four architectures under three decoding strategies.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、テキスト入力と視覚入力の両方に対して効果的に推論できるが、それらは構文的に一貫性があり、視覚的に非基底的なコンテンツを幻覚させる傾向がある。
本稿では,LVLMが生成過程を通じてランク付けするトークンを調べることで,幻覚内部のダイナミクスを解明し,LVLMの処理過程における3つの重要なパターンを明らかにする:(1) 段階的な視覚情報損失 - 視覚的に接地されたトークンは,世代を通して徐々に好まれなくなり,(2) 初期励起-意味的に意味のあるトークンは最終層よりも早い層でピークアクティベーションを実現する。
(3) 隠れた真の情報 -- 視覚的に接地されたトークンは最終的に決定されないが、推論時に比較的高いランクを維持している。
これらの知見に基づき、本研究では、真の情報を促進しながら幻覚を減少させる訓練不要な推論時間介入フレームワークであるVISTA(Visual Information Steering with Token-logit Augmentation)を提案する。
VISTAは、アクティベーション空間における視覚情報の強化と、セマンティックな意味のあるデコーディングを促進するために初期層アクティベーションを活用する2つの補完的なアプローチを組み合わせることで機能する。
既存の手法と比較して、VISTAは外部の監視を必要としないため、様々なデコード戦略に適用できる。
大規模な実験により、VISTAは評価済みのオープンエンド生成タスクにおいて、平均で40%の幻覚を減らし、3つのデコード戦略の下で4つのアーキテクチャにわたる4つのベンチマークにおいて、既存の手法を一貫して上回ります。
関連論文リスト
- Fixing Imbalanced Attention to Mitigate In-Context Hallucination of Large Vision-Language Model [0.0]
大規模視覚言語モデル (LVLM) は視覚的内容の理解と記述において顕著な能力を示した。
これらのモデルは、しばしば幻覚の振る舞いを示し、入力画像に存在しない物体や詳細を含む記述を生成する。
本稿では,視覚的接地を維持するために,選択的トークン強調と頭部特異的変調を組み合わせた新しいアテンション修正手法を提案する。
論文 参考訳(メタデータ) (2025-01-21T15:22:31Z) - Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence [69.86946427928511]
大型視覚言語モデル(LVLM)における幻覚を駆動する内部メカニズムについて検討する。
本稿では,視覚的コンテキストに対する注目ヘッド出力の感度を定量化する指標として,視覚認識型頭部偏差(VHD)を紹介する。
視覚認識型頭部強化(VHR)は,視覚認識型頭部機能を高めることで幻覚を緩和するための訓練不要なアプローチである。
論文 参考訳(メタデータ) (2024-12-18T15:29:30Z) - VaLiD: Mitigating the Hallucination of Large Vision Language Models by Visual Layer Fusion Contrastive Decoding [38.23310445372371]
LVLM(Large Vision-Language Models)はマルチモーダルタスク推論において優れた性能を示す。
textbfVisutextbfal textbfLayer Fustextbfion Contrastive textbfDecoding (VaLiD)。
論文 参考訳(メタデータ) (2024-11-24T13:42:02Z) - Devils in Middle Layers of Large Vision-Language Models: Interpreting, Detecting and Mitigating Object Hallucinations via Attention Lens [7.806633929976787]
LVLM(Large Vision-Language Models)の幻覚は、その信頼性を著しく損なう。
本稿では,LVLMが視覚情報をどのように処理し,その処理が幻覚を引き起こすかについて述べる。
本稿では,様々な頭部に情報を統合することで視覚的注意を調節する簡易な推論時間手法を提案する。
論文 参考訳(メタデータ) (2024-11-23T03:40:05Z) - Self-Introspective Decoding: Alleviating Hallucinations for Large Vision-Language Models [30.26685485474035]
LVLM(Large Vision-Language Models)は近年急速に進歩している。
幻覚問題として知られる問題は、重大なボトルネックとして浮上している。
自己検査復号法(Self-Introspective Decoding, SID)を提案する。
論文 参考訳(メタデータ) (2024-08-04T13:50:17Z) - Attend and Enrich: Enhanced Visual Prompt for Zero-Shot Learning [114.59476118365266]
視覚表現豊か化のための意味強調プロンプトを抽出するための視覚的プロンプトに意味情報を付与するAENetを提案する。
AENetは、2つの重要なステップから構成される: 1) 視覚的・属性的モダリティの概念調和トークンを探索し、一貫した視覚的セマンティックな概念を表す様相共有トークンに基づく。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文 参考訳(メタデータ) (2021-11-29T17:49:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。