論文の概要: Enhancing Visual Reliance in Text Generation: A Bayesian Perspective on Mitigating Hallucination in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.19498v1
- Date: Mon, 26 May 2025 04:26:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.167311
- Title: Enhancing Visual Reliance in Text Generation: A Bayesian Perspective on Mitigating Hallucination in Large Vision-Language Models
- Title(参考訳): テキスト生成における視覚的信頼の促進:大規模視覚言語モデルにおける幻覚の緩和に関するベイズ的視点
- Authors: Nanxing Hu, Xiaoyue Duan, Jinchao Zhang, Guoliang Kang,
- Abstract要約: LVLM(Large Vision-Language Models)は通常、コンテキストコヒーレンスを満たすテキストを生成するが、視覚入力と一致しない。
本稿では,ベイズ的視点からLVLMのテキスト生成における視覚的依存を退避させる要因について検討する。
- 参考スコア(独自算出の注目度): 15.30139764717077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) usually generate texts which satisfy context coherence but don't match the visual input. Such a hallucination issue hinders LVLMs' applicability in the real world. The key to solving hallucination in LVLM is to make the text generation rely more on the visual content. Most previous works choose to enhance/adjust the features/output of a specific modality (i.e., visual or textual) to alleviate hallucinations in LVLM, which do not explicitly or systematically enhance the visual reliance. In this paper, we comprehensively investigate the factors which may degenerate the visual reliance in text generation of LVLM from a Bayesian perspective. Based on our observations, we propose to mitigate hallucination in LVLM from three aspects. Firstly, we observe that not all visual tokens are informative in generating meaningful texts. We propose to evaluate and remove redundant visual tokens to avoid their disturbance. Secondly, LVLM may encode inappropriate prior information, making it lean toward generating unexpected words. We propose a simple yet effective way to rectify the prior from a Bayesian perspective. Thirdly, we observe that starting from certain steps, the posterior of next-token prediction conditioned on visual tokens may collapse to a prior distribution which does not depend on any informative visual tokens at all. Thus, we propose to stop further text generation to avoid hallucination. Extensive experiments on three benchmarks including POPE, CHAIR, and MME demonstrate that our method can consistently mitigate the hallucination issue of LVLM and performs favorably against previous state-of-the-arts.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は通常、コンテキストコヒーレンスを満たすテキストを生成するが、視覚入力と一致しない。
このような幻覚問題はLVLMの現実世界への適用性を妨げている。
LVLMにおける幻覚の解決の鍵は、テキスト生成を視覚的コンテンツにもっと依存させることである。
これまでのほとんどの作品では、視覚的依存を明示的にまたは体系的に強化しないLVLMの幻覚を緩和するために、特定のモダリティ(視覚的またはテキスト的)の特徴/出力を拡張・調整することを選んだ。
本稿では,ベイズ的視点からLVLMのテキスト生成における視覚的依存を退避させる要因を包括的に検討する。
本稿では,LVLMの幻覚を3つの側面から緩和することを提案する。
まず、すべての視覚的トークンが意味のあるテキストを生成する際に有益であるとは限らないことを観察する。
本稿では,その乱れを避けるために,冗長な視覚トークンの評価と除去を提案する。
第二に、LVLMは不適切な事前情報をエンコードし、予期せぬ単語を生成する。
ベイズの観点から、前者を修正するための単純で効果的な方法を提案する。
第3に、あるステップから、視覚的トークンに条件付けられた次トーケン予測の後部が、情報的視覚的トークンに依存しない事前分布に崩壊する可能性があることを観察する。
そこで本研究では,幻覚を避けるために,テキスト生成のさらなる停止を提案する。
POPE, CHAIR, MMEの3つのベンチマークにおいて, この手法がLVLMの幻覚の問題を一貫した緩和し, 従来の最先端技術に対して良好な性能を発揮することを示す。
関連論文リスト
- Does Object Grounding Really Reduce Hallucination of Large Vision-Language Models? [53.89380284760555]
大型視覚言語モデル(LVLM)は、画像に見つからない概念に言及するキャプションを生成する。
これらの幻覚は、LVLMの信頼性を損なうものであり、ユビキタス採用の主な障害であることは間違いない。
最近の研究は、画像領域やオブジェクトをテキストスパンに明示的にアライメントする、接地目的の追加は、LVLM幻覚の量を減らすことを示唆している。
論文 参考訳(メタデータ) (2024-06-20T16:56:11Z) - MetaToken: Detecting Hallucination in Image Descriptions by Meta Classification [1.3654846342364308]
トークンレベルの幻覚を無視可能なコストで検出する軽量バイナリ分類器であるMetaTokenを紹介する。
統計的解析から,大規模視覚言語モデルにおける幻覚の重要な要因を明らかにする。
提案手法の有効性を示す4種類のLVLMについて検討した。
論文 参考訳(メタデータ) (2024-05-29T15:28:42Z) - Visual Description Grounding Reduces Hallucinations and Boosts Reasoning in LVLMs [52.497823009176074]
LVLM(Large Vision-Language Models)はしばしば、幻覚として知られる事実情報を誤認する応答を生成する。
視覚的知覚の向上とLVLMの推論能力の向上を目的とした学習自由度手法であるVisual Description Grounded Decoding (VDGD)を紹介した。
論文 参考訳(メタデータ) (2024-05-24T16:21:59Z) - Skip \n: A Simple Method to Reduce Hallucination in Large Vision-Language Models [36.41071419735876]
大規模視覚言語モデル(LVLM)における段落ブレーク(nn)に関連する意味的シフトバイアスを同定する。
この偏見から、「nn」に続く内容が、幻覚的記述の少ない先行内容と明らかに異なるべきであると推測するモデルが導かれる。
生成した記述に「nn」を意図的に挿入すると、より幻覚が引き起こされる。
論文 参考訳(メタデータ) (2024-02-02T12:02:46Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z) - Analyzing and Mitigating Object Hallucination in Large Vision-Language Models [110.12460299261531]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する際、顕著な能力を示した。
LVLMは依然として物体幻覚に悩まされており、画像に実際に存在しない物体を含む記述を生成するという問題である。
そこで我々は,LVLMの幻覚を再現するアルゴリズム LVLM Hallucination Revisor (LURE) を提案する。
論文 参考訳(メタデータ) (2023-10-01T18:10:53Z) - Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。
LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。
対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T16:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。