論文の概要: Multi-Modal Hallucination Control by Visual Information Grounding
- arxiv url: http://arxiv.org/abs/2403.14003v1
- Date: Wed, 20 Mar 2024 22:05:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 17:59:26.189505
- Title: Multi-Modal Hallucination Control by Visual Information Grounding
- Title(参考訳): 視覚情報グラウンドリングによるマルチモーダル幻覚制御
- Authors: Alessandro Favero, Luca Zancato, Matthew Trager, Siddharth Choudhary, Pramuditha Perera, Alessandro Achille, Ashwin Swaminathan, Stefano Soatto,
- Abstract要約: 本稿では,VLM(Generative Vision-Language Models)が,入力画像に常に接するとは限らない,可聴性のあるテキスト応答を生成する傾向があることを示す。
即時増幅のための新しいサンプリング手法であるM3ID(Multi-Modal Mutual-Information Decoding)を導入する。
M3IDは、言語に対する参照画像の影響を増幅し、視覚的プロンプトと高い相互情報を持つトークンの生成を優先する。
- 参考スコア(独自算出の注目度): 121.6983694815504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative Vision-Language Models (VLMs) are prone to generate plausible-sounding textual answers that, however, are not always grounded in the input image. We investigate this phenomenon, usually referred to as "hallucination" and show that it stems from an excessive reliance on the language prior. In particular, we show that as more tokens are generated, the reliance on the visual prompt decreases, and this behavior strongly correlates with the emergence of hallucinations. To reduce hallucinations, we introduce Multi-Modal Mutual-Information Decoding (M3ID), a new sampling method for prompt amplification. M3ID amplifies the influence of the reference image over the language prior, hence favoring the generation of tokens with higher mutual information with the visual prompt. M3ID can be applied to any pre-trained autoregressive VLM at inference time without necessitating further training and with minimal computational overhead. If training is an option, we show that M3ID can be paired with Direct Preference Optimization (DPO) to improve the model's reliance on the prompt image without requiring any labels. Our empirical findings show that our algorithms maintain the fluency and linguistic capabilities of pre-trained VLMs while reducing hallucinations by mitigating visually ungrounded answers. Specifically, for the LLaVA 13B model, M3ID and M3ID+DPO reduce the percentage of hallucinated objects in captioning tasks by 25% and 28%, respectively, and improve the accuracy on VQA benchmarks such as POPE by 21% and 24%.
- Abstract(参考訳): VLM(Generative Vision-Language Models)は、入力画像に常に接点があるとは限らない、可視音の答えを生成する傾向にある。
本稿では,この現象を「ハロシン化」と呼び,それ以前の言語への過度な依存に起因していることを示す。
特に、より多くのトークンが生成されると、視覚的プロンプトへの依存が減少し、この行動は幻覚の出現と強く関連していることを示す。
幻覚を低減するため,マルチモーダルな相互情報復号法 (M3ID) を導入する。
M3IDは、言語に対する参照画像の影響を増幅し、視覚的プロンプトと高い相互情報を持つトークンの生成を優先する。
M3IDは、追加のトレーニングを必要とせず、計算オーバーヘッドも最小限に抑えられることなく、推論時に事前訓練された自己回帰型VLMに適用することができる。
トレーニングがオプションであれば、M3IDとDPO(Direct Preference Optimization)を組み合わせて、ラベルを必要とせずに、モデルがプロンプトイメージに依存することを改善することができることを示す。
実験結果から,本アルゴリズムは学習前のVLMの流速と言語的能力を維持しつつ,視覚的未解決の回答を緩和することにより幻覚を軽減していることが明らかとなった。
具体的には、LLaVA 13Bモデルにおいて、M3IDとM3ID+DPOは、それぞれキャプションタスクにおける幻覚オブジェクトの割合を25%と28%削減し、POPEなどのVQAベンチマークの精度を21%と24%向上させた。
関連論文リスト
- A Unified Hallucination Mitigation Framework for Large Vision-Language Models [18.595958586621943]
幻覚緩和のための統一的な枠組みであるデンティストを提示する。
中心となるステップは、まずクエリを分類し、次に分類結果に基づいて幻覚緩和の異なるプロセスを実行することである。
MMbenchでは、画像品質の精度が13.44%/10.2%/15.8%向上した。
論文 参考訳(メタデータ) (2024-09-24T22:36:58Z) - Look, Compare, Decide: Alleviating Hallucination in Large Vision-Language Models via Multi-View Multi-Path Reasoning [24.270713960060142]
LVLM(Large Vision-Language Models)は、マルチモーダルコンテキスト理解における印象的な機能を示す。
彼らはまだ、画像の内容と矛盾する出力を生成することを参照して幻覚に悩まされている。
LVLMの生来の能力を最大限活用して幻覚を減らすことを目的とした、トレーニングフリーフレームワークである textbfMVP を提案する。
論文 参考訳(メタデータ) (2024-08-30T09:40:10Z) - Data-augmented phrase-level alignment for mitigating object hallucination [52.43197107069751]
MLLM(Multimodal Large Language Models)はしばしば幻覚と呼ばれる事実的不正確な情報を生成する。
そこで,本研究では,MLLMの命令調整による幻覚の緩和に応用可能な新しい損失であるData-augmented Phrase-level Alignment(DPA)を提案する。
論文 参考訳(メタデータ) (2024-05-28T23:36:00Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - Aligning Modalities in Vision Large Language Models via Preference
Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。
具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。
提案手法は,好ましくないデータを生成するための2段階のアプローチである。
広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T00:56:16Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z) - Mitigating Hallucination in Visual Language Models with Visual
Supervision [33.05550629039951]
大きな視覚言語モデル(LVLM)は幻覚に悩まされている。
鍵となる問題は、マルチモーダルなコンテキストで詳細なコンテンツを理解できないことだ。
本稿では,LVLMのトレーニングを容易にするために,より詳細な視覚アノテーションとより識別可能な視覚モデルを提案する。
論文 参考訳(メタデータ) (2023-11-27T09:30:02Z) - Detecting and Preventing Hallucinations in Large Vision Language Models [4.7264116948935975]
M-HalDetectは、詳細な画像記述のための最初のマルチモーダル幻覚検出データセットである。
InstructBLIPから細粒度マルチモーダル報酬モデルを訓練し,その有効性を評価する。
LLaVAとmPLUG-OWLの幻覚をそれぞれ15%と57%低減する。
論文 参考訳(メタデータ) (2023-08-11T21:35:20Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。