論文の概要: Seeing is Believing: Mitigating Hallucination in Large Vision-Language Models via CLIP-Guided Decoding
- arxiv url: http://arxiv.org/abs/2402.15300v2
- Date: Tue, 23 Apr 2024 09:32:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 19:16:06.678257
- Title: Seeing is Believing: Mitigating Hallucination in Large Vision-Language Models via CLIP-Guided Decoding
- Title(参考訳): 理解する: CLIP-Guided Decoding による大規模視覚言語モデルにおける幻覚の緩和
- Authors: Ailin Deng, Zhirui Chen, Bryan Hooi,
- Abstract要約: LVLM(Large Vision-Language Models)は、物体の幻覚に影響を受けやすい。
現在のアプローチは、しばしばモデルのトークン可能性やその他の内部情報に依存する。
CLIP-Guided Decoding approach to reduce object hallucination at decoding time。
- 参考スコア(独自算出の注目度): 36.81476620057058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) are susceptible to object hallucinations, an issue in which their generated text contains non-existent objects, greatly limiting their reliability and practicality. Current approaches often rely on the model's token likelihoods or other internal information, instruction tuning on additional datasets, or incorporating complex external tools. We first perform empirical analysis on sentence-level LVLM hallucination, finding that CLIP similarity to the image acts as a stronger and more robust indicator of hallucination compared to token likelihoods. Motivated by this, we introduce our CLIP-Guided Decoding (CGD) approach, a straightforward but effective training-free approach to reduce object hallucination at decoding time. CGD uses CLIP to guide the model's decoding process by enhancing visual grounding of generated text with the image. Experiments demonstrate that CGD effectively mitigates object hallucination across multiple LVLM families while preserving the utility of text generation. Codes are available at https://github.com/d-ailin/CLIP-Guided-Decoding.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、生成したテキストが存在しないオブジェクトを含む問題であり、その信頼性と実用性を大幅に制限する。
現在のアプローチは、しばしばモデルのトークン可能性やその他の内部情報に依存し、追加のデータセットをチューニングしたり、複雑な外部ツールを組み込んだりしている。
文レベルのLVLM幻覚に関する実証分析を行い,CLIPと画像との類似性はトークンの確率よりも強く,より堅牢な幻覚の指標として機能することを発見した。
そこで我々は,CLIP-Guided Decoding (CGD) アプローチを導入する。
CGDはCLIPを使用して、生成されたテキストを画像で視覚的にグラウンド化することで、モデルのデコードプロセスをガイドする。
実験により、CGDはテキスト生成の有用性を保ちながら、複数のLVLMファミリーにまたがるオブジェクト幻覚を効果的に緩和することが示された。
コードはhttps://github.com/d-ailin/CLIP-Guided-Decodingで入手できる。
関連論文リスト
- VaLiD: Mitigating the Hallucination of Large Vision Language Models by Visual Layer Fusion Contrastive Decoding [38.23310445372371]
LVLM(Large Vision-Language Models)はマルチモーダルタスク推論において優れた性能を示す。
textbfVisutextbfal textbfLayer Fustextbfion Contrastive textbfDecoding (VaLiD)。
論文 参考訳(メタデータ) (2024-11-24T13:42:02Z) - Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation [50.73561815838431]
MLLM(Multimodal Large Language Models)はしばしば幻覚現象を示す。
MLLM(DeCo)の新しい動的補正復号法を提案する。
広範に使用されているベンチマークでDeCoを評価し、ベースラインと比較して幻覚率を大きなマージンで削減できることを実証した。
論文 参考訳(メタデータ) (2024-10-15T16:57:44Z) - HELPD: Mitigating Hallucination of LVLMs by Hierarchical Feedback Learning with Vision-enhanced Penalty Decoding [36.360171373963716]
LVLM(Large Vision-Language Models)は多くの視覚言語タスクにおいて顕著な性能を示している。
これらのモデルはまだマルチモーダル幻覚に悩まされており、それは画像に反するオブジェクトやコンテンツの生成を意味する。
本稿では、この問題に対処するために、視力強化されたペナルティ復号法(HELPD)を用いた階層的フィードバック学習を提案する。
論文 参考訳(メタデータ) (2024-09-30T15:52:05Z) - Do More Details Always Introduce More Hallucinations in LVLM-based Image Captioning? [29.237078890377514]
LVLM(Large Vision-Language Models)は、視覚的コンテキストと言語的コンテキストを統合することで、詳細なコンテンツを生成する。
LVLMを使用して記述を生成すると、出力テキストが入力画像内の実際のオブジェクトを誤って表現するオブジェクト幻覚(OH)の課題に直面します。
本稿では,新しい復号化戦略である微分ビーム復号法(DBD)と信頼性の高い新しい評価指標を提案する。
論文 参考訳(メタデータ) (2024-06-18T14:33:56Z) - Aligning Modalities in Vision Large Language Models via Preference
Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。
具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。
提案手法は,好ましくないデータを生成するための2段階のアプローチである。
広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T00:56:16Z) - Mitigating Fine-Grained Hallucination by Fine-Tuning Large
Vision-Language Models with Caption Rewrites [18.640459366439917]
このフレームワークは,ChatGPTを用いた字幕の書き直しと,書き直された字幕上の命令調整されたLVLMの微調整という2つのコンポーネントから構成される。
実験の結果,ReCaptionは様々なLVLMオプションに対して,粒度の細かいオブジェクト幻覚を効果的に低減し,テキスト生成品質を向上することを示した。
論文 参考訳(メタデータ) (2023-12-04T07:43:02Z) - Mitigating Object Hallucinations in Large Vision-Language Models through
Visual Contrastive Decoding [125.05295513481035]
本稿では,オリジナルおよび歪曲された視覚入力から出力分布を対比する,シンプルでトレーニングのないVisual Contrastive Decoding(VCD)を紹介する。
提案したVCDは, 対象幻覚の2つの重要な原因である, 統計的偏見と単調な先行性に対する信頼度を効果的に低減する。
実験の結果,付加的なトレーニングや外部ツールの使用がなければ,異なるLVLMファミリーにおける物体幻覚の問題を著しく軽減できることがわかった。
論文 参考訳(メタデータ) (2023-11-28T16:26:35Z) - Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。
LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。
対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T16:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。