論文の概要: Self-Introspective Decoding: Alleviating Hallucinations for Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2408.02032v2
- Date: Tue, 8 Oct 2024 12:26:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 13:07:08.064916
- Title: Self-Introspective Decoding: Alleviating Hallucinations for Large Vision-Language Models
- Title(参考訳): 自己イントロスペクティブデコーディング:大規模視覚言語モデルに対する幻覚の緩和
- Authors: Fushuo Huo, Wenchao Xu, Zhong Zhang, Haozhao Wang, Zhicheng Chen, Peilin Zhao,
- Abstract要約: LVLM(Large Vision-Language Models)は近年急速に進歩している。
幻覚問題として知られる問題は、重大なボトルネックとして浮上している。
自己検査復号法(Self-Introspective Decoding, SID)を提案する。
- 参考スコア(独自算出の注目度): 30.26685485474035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Vision-Language Models (LVLMs) have rapidly advanced in recent years, the prevalent issue known as the `hallucination' problem has emerged as a significant bottleneck, hindering their real-world deployments. Existing methods mitigate this issue mainly from two perspectives: One approach leverages extra knowledge like robust instruction tuning LVLMs with curated datasets or employing auxiliary analysis networks, which inevitable incur additional costs. Another approach, known as contrastive decoding, induces hallucinations by manually disturbing the vision or instruction raw inputs and mitigates them by contrasting the outputs of the disturbed and original LVLMs. However, these approaches rely on empirical holistic input disturbances and double the inference cost. To avoid these issues, we propose a simple yet effective method named Self-Introspective Decoding (SID). Our empirical investigation reveals that pretrained LVLMs can introspectively assess the importance of vision tokens based on preceding vision and text (both instruction and generated) tokens. We develop the Context and Text-aware Token Selection (CT2S) strategy, which preserves only unimportant vision tokens after early layers of LVLMs to adaptively amplify text-informed hallucination during the auto-regressive decoding. This approach ensures that multimodal knowledge absorbed in the early layers induces multimodal contextual rather than aimless hallucinations. Subsequently, the original token logits subtract the amplified vision-and-text association hallucinations, guiding LVLMs decoding faithfully. Extensive experiments illustrate SID generates less-hallucination and higher-quality texts across various metrics, without extra knowledge and much additional computation burdens.
- Abstract(参考訳): 近年、LVLM(Large Vision-Language Models)が急速に進歩してきたが、'hallucination'問題と呼ばれる大きな問題が重大なボトルネックとして浮上し、現実のデプロイメントを妨げている。
既存の手法は、主に2つの観点からこの問題を軽減する: 1つのアプローチは、堅牢なインストラクションチューニング LVLM をキュレートされたデータセットでチューニングしたり、補助的な分析ネットワークを使用したり、追加コストを発生させないような、余分な知識を活用する。
対照的な復号法として知られる別のアプローチは、視覚を手動で妨害したり、生の入力を指示することで幻覚を誘導し、乱された元のLVLMの出力と対比することでそれらを緩和する。
しかし、これらのアプローチは経験的全体論的入力障害と推論コストの2倍に依存する。
これらの問題を回避するために,SID (Self-Introspective Decoding) というシンプルな手法を提案する。
我々の経験的調査により,事前学習したLVLMは,先行する視覚とテキスト(命令と生成の両方)のトークンに基づいて,視覚トークンの重要性を内省的に評価できることがわかった。
我々は,LVLMの初期層の後,重要でない視覚トークンのみを保存し,自動回帰デコード中のテキストインフォームド幻覚を適応的に増幅するCT2S(Context and Text-aware Token Selection)戦略を開発した。
このアプローチは、初期層に吸収されたマルチモーダル知識が、目的のない幻覚ではなく、多モーダルコンテキストを誘導することを保証する。
その後、オリジナルのトークンロジットは増幅された視覚・テキスト関連幻覚を減らし、LVLMを忠実に復号する。
大規模な実験では、SIDは余分な知識と余分な計算負担を伴わずに、様々な指標をまたいだより低いハロシン化と高品質なテキストを生成する。
関連論文リスト
- Self-Correcting Decoding with Generative Feedback for Mitigating Hallucinations in Large Vision-Language Models [66.71616369573715]
LVLM(Large Vision-Language Models)は、与えられた視覚入力と一致しない幻覚的テキスト応答を生成する傾向がある。
テキストから画像への生成モデルからのフィードバックをデコードプロセスに組み込んだ,新たなトレーニングフリーアルゴリズムである生成フィードバック付き自己修正デコード(DeGF)を導入する。
論文 参考訳(メタデータ) (2025-02-10T03:43:55Z) - The Hidden Life of Tokens: Reducing Hallucination of Large Vision-Language Models via Visual Information Steering [42.09744951074433]
生成過程を通してトークンログのランキングを検証し,幻覚の内的ダイナミクスについて検討する。
本稿では,真の情報を促進しつつ幻覚を減少させるトレーニングフリーな推論時間介入フレームワークであるVISTAを提案する。
論文 参考訳(メタデータ) (2025-02-05T21:34:02Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence [69.86946427928511]
大型視覚言語モデル(LVLM)における幻覚を駆動する内部メカニズムについて検討する。
本稿では,視覚的コンテキストに対する注目ヘッド出力の感度を定量化する指標として,視覚認識型頭部偏差(VHD)を紹介する。
視覚認識型頭部強化(VHR)は,視覚認識型頭部機能を高めることで幻覚を緩和するための訓練不要なアプローチである。
論文 参考訳(メタデータ) (2024-12-18T15:29:30Z) - Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning [151.4060202671114]
マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。
本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。
本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
論文 参考訳(メタデータ) (2024-12-15T09:10:46Z) - CATCH: Complementary Adaptive Token-level Contrastive Decoding to Mitigate Hallucinations in LVLMs [74.36850397755572]
CATCHは、未解決のシナリオにおいて、きめ細かい特徴知覚と累積幻覚を減少させる視覚的欠陥に関連する問題に対処する。
これは、特定のデータや事前知識を必要とせず、様々な視覚的質問応答タスクに適用でき、追加のトレーニングを必要とせず、新しいタスクにしっかりと一般化する。
論文 参考訳(メタデータ) (2024-11-19T18:27:31Z) - Reducing Hallucinations in Vision-Language Models via Latent Space Steering [34.1755878632361]
幻覚は、アプリケーションに大規模な視覚言語モデル(LVLM)を配置する上での課題である。
本稿では,視覚的特徴の安定性を高めるために,視覚とテクスチュアル・インターベンション(VTI, Visual and Textual Intervention)を提案する。
論文 参考訳(メタデータ) (2024-10-21T08:42:30Z) - Visual Description Grounding Reduces Hallucinations and Boosts Reasoning in LVLMs [52.497823009176074]
LVLM(Large Vision-Language Models)はしばしば、幻覚として知られる事実情報を誤認する応答を生成する。
視覚的知覚の向上とLVLMの推論能力の向上を目的とした学習自由度手法であるVisual Description Grounded Decoding (VDGD)を紹介した。
論文 参考訳(メタデータ) (2024-05-24T16:21:59Z) - Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding [25.489832294197797]
本稿では,LVLM推論における幻覚の低減を目的とした,命令コントラストデコーディング(ICD)手法を提案する。
本手法は,マルチモーダル核融合モジュールにおいて,外乱指示が幻覚を著しく悪化させるという観察に着想を得たものである。
論文 参考訳(メタデータ) (2024-03-27T16:04:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。