論文の概要: Delve into Visual Contrastive Decoding for Hallucination Mitigation of Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2412.06775v1
- Date: Mon, 09 Dec 2024 18:57:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:59:11.423472
- Title: Delve into Visual Contrastive Decoding for Hallucination Mitigation of Large Vision-Language Models
- Title(参考訳): 大規模視覚言語モデルの幻覚軽減のための視覚コントラストデコーディング
- Authors: Yi-Lun Lee, Yi-Hsuan Tsai, Wei-Chen Chiu,
- Abstract要約: 大規模視覚言語モデル(LVLM)は、入力された視覚内容と相関する可視応答を生成する優れた能力を示した。
彼らはまだ幻覚に悩まされており、生成したテキストは視覚的内容を不正確に反映している。
近年のアプローチでは、元のサンプルと視覚的に歪んだサンプルとのコントラスト出力分布を用いて、モデルの応答を校正するためにコントラストデコーディングを適用している。
- 参考スコア(独自算出の注目度): 40.70957762776874
- License:
- Abstract: While large vision-language models (LVLMs) have shown impressive capabilities in generating plausible responses correlated with input visual contents, they still suffer from hallucinations, where the generated text inaccurately reflects visual contents. To address this, recent approaches apply contrastive decoding to calibrate the model's response via contrasting output distributions with original and visually distorted samples, demonstrating promising hallucination mitigation in a training-free manner. However, the potential of changing information in visual inputs is not well-explored, so a deeper investigation into the behaviors of visual contrastive decoding is of great interest. In this paper, we first explore various methods for contrastive decoding to change visual contents, including image downsampling and editing. Downsampling images reduces the detailed textual information while editing yields new contents in images, providing new aspects as visual contrastive samples. To further study benefits by using different contrastive samples, we analyze probability-level metrics, including entropy and distribution distance. Interestingly, the effect of these samples in mitigating hallucinations varies a lot across LVLMs and benchmarks. Based on our analysis, we propose a simple yet effective method to combine contrastive samples, offering a practical solution for applying contrastive decoding across various scenarios. Extensive experiments are conducted to validate the proposed fusion method among different benchmarks.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、入力された視覚内容と相関する可視応答を生成するという印象的な能力を示しているが、生成したテキストが視覚内容を正しく反映していない幻覚に悩まされている。
これを解決するために、近年のアプローチでは、出力分布とオリジナルおよび視覚的に歪んだサンプルとの対比によるモデル応答の校正にコントラッシブデコーディングを適用し、トレーニング不要で有望な幻覚の緩和を示す。
しかし、視覚入力における情報変化の可能性は十分に解明されていないため、視覚的コントラスト復号の振る舞いについてより深く研究することが大きな関心事である。
本稿では,画像のダウンサンプリングや編集など,コントラスト復号化のための様々な手法について検討する。
ダウンサンプリング画像は、画像中の新しいコンテンツを編集しながら詳細なテキスト情報を減らし、視覚的コントラストのサンプルとして新しい側面を提供する。
本研究では,異なるコントラストサンプルを用いて,エントロピーや分布距離を含む確率レベルの指標を解析する。
興味深いことに、これらのサンプルが幻覚を緩和する効果はLVLMやベンチマークによって大きく異なる。
そこで本研究では,コントラッシブなサンプルを組み合わせるための簡易かつ効果的な手法を提案し,コントラッシブなデコーディングを様々なシナリオに適用する実用的な方法を提案する。
異なるベンチマーク間で提案した核融合法を検証するために, 広範囲な実験を行った。
関連論文リスト
- Self-Correcting Decoding with Generative Feedback for Mitigating Hallucinations in Large Vision-Language Models [66.71616369573715]
LVLM(Large Vision-Language Models)は、与えられた視覚入力と一致しない幻覚的テキスト応答を生成する傾向がある。
テキストから画像への生成モデルからのフィードバックをデコードプロセスに組み込んだ,新たなトレーニングフリーアルゴリズムである生成フィードバック付き自己修正デコード(DeGF)を導入する。
論文 参考訳(メタデータ) (2025-02-10T03:43:55Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - VaLiD: Mitigating the Hallucination of Large Vision Language Models by Visual Layer Fusion Contrastive Decoding [38.23310445372371]
LVLM(Large Vision-Language Models)はマルチモーダルタスク推論において優れた性能を示す。
textbfVisutextbfal textbfLayer Fustextbfion Contrastive textbfDecoding (VaLiD)。
論文 参考訳(メタデータ) (2024-11-24T13:42:02Z) - CODE: Contrasting Self-generated Description to Combat Hallucination in Large Multi-modal Models [51.70129969269271]
CODE(Countering Description Contrastive Decoding)という,新しいコントラストベースのデコーディング手法を提案する。
提案手法は幻覚を著しく低減し,様々なベンチマークや最先端のLMM間の相互整合性を改善する。
論文 参考訳(メタデータ) (2024-06-04T03:04:21Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - IBD: Alleviating Hallucinations in Large Vision-Language Models via
Image-Biased Decoding [37.16880672402059]
言語的先行性への過度な依存は幻覚に繋がる重要な要因として認識されている。
本稿では,新しい画像バイアスデコーディング手法を導入することにより,この問題を軽減することを提案する。
提案手法は,従来のLVLMと画像バイアスLVLMの予測を対比することにより,次の確率分布を導出する。
論文 参考訳(メタデータ) (2024-02-28T16:57:22Z) - Dual-View Data Hallucination with Semantic Relation Guidance for Few-Shot Image Recognition [49.26065739704278]
本稿では、意味的関係を利用して、画像認識のための二重視点データ幻覚を導出するフレームワークを提案する。
インスタンスビューデータ幻覚モジュールは、新規クラスの各サンプルを幻覚して新しいデータを生成する。
プロトタイプビューデータ幻覚モジュールは、意味認識尺度を利用して、新しいクラスのプロトタイプを推定する。
論文 参考訳(メタデータ) (2024-01-13T12:32:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。