論文の概要: Mitigating Hallucination in Visual Language Models with Visual
Supervision
- arxiv url: http://arxiv.org/abs/2311.16479v1
- Date: Mon, 27 Nov 2023 09:30:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 20:11:41.111824
- Title: Mitigating Hallucination in Visual Language Models with Visual
Supervision
- Title(参考訳): 視覚指導による視覚言語モデルの幻覚緩和
- Authors: Zhiyang Chen, Yousong Zhu, Yufei Zhan, Zhaowen Li, Chaoyang Zhao,
Jinqiao Wang, Ming Tang
- Abstract要約: 大きな視覚言語モデル(LVLM)は幻覚に悩まされている。
鍵となる問題は、マルチモーダルなコンテキストで詳細なコンテンツを理解できないことだ。
本稿では,LVLMのトレーニングを容易にするために,より詳細な視覚アノテーションとより識別可能な視覚モデルを提案する。
- 参考スコア(独自算出の注目度): 33.05550629039951
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large vision-language models (LVLMs) suffer from hallucination a lot,
generating responses that apparently contradict to the image content
occasionally. The key problem lies in its weak ability to comprehend detailed
content in a multi-modal context, which can be mainly attributed to two factors
in training data and loss function. The vision instruction dataset primarily
focuses on global description, and the auto-regressive loss function favors
text modeling rather than image understanding. In this paper, we bring more
detailed vision annotations and more discriminative vision models to facilitate
the training of LVLMs, so that they can generate more precise responses without
encounter hallucination. On one hand, we generate image-text pairs with
detailed relationship annotations in panoptic scene graph dataset (PSG). These
conversations pay more attention on detailed facts in the image, encouraging
the model to answer questions based on multi-modal contexts. On the other hand,
we integrate SAM and mask prediction loss as auxiliary supervision, forcing the
LVLMs to have the capacity to identify context-related objects, so that they
can generate more accurate responses, mitigating hallucination. Moreover, to
provide a deeper evaluation on the hallucination in LVLMs, we propose a new
benchmark, RAH-Bench. It divides vision hallucination into three different
types that contradicts the image with wrong categories, attributes or
relations, and introduces False Positive Rate as detailed sub-metric for each
type. In this benchmark, our approach demonstrates an +8.4% enhancement
compared to original LLaVA and achieves widespread performance improvements
across other models.
- Abstract(参考訳): 大規模な視覚言語モデル(LVLM)は幻覚に悩まされ、画像の内容と矛盾する反応を生じる。
鍵となる問題は、詳細なコンテンツをマルチモーダルなコンテキストで理解する能力の弱いことであり、これは主にトレーニングデータと損失関数の2つの要因によって引き起こされる。
ビジョン命令データセットは主にグローバル記述に焦点を当てており、自動回帰損失関数は画像理解よりもテキストモデリングを好む。
本稿では,LVLMの訓練を容易にするために,より詳細な視覚アノテーションや識別的視覚モデルを導入し,幻覚に遭遇することなくより正確な応答を生成できるようにする。
一方,panoptic scene graph dataset (psg) では,詳細な関係アノテーションを用いた画像テキストペアを生成する。
これらの会話は、画像内の詳細な事実により多くの注意を払い、マルチモーダルコンテキストに基づいた質問に答えるようモデルに促す。
一方で,sam と mask prediction loss を補助監督として統合し,lvlm に文脈関連オブジェクトを識別する能力を持たせ,より正確な応答を生成し,幻覚を緩和する。
さらに,LVLMの幻覚をより深く評価するために,新しいベンチマークRAH-Benchを提案する。
視覚幻覚を3つの異なるタイプに分割し、間違ったカテゴリ、属性、関係で画像と矛盾し、各タイプの詳細なサブメトリックとして偽陽性率を導入する。
本ベンチマークでは,従来のLLaVAに比べて+8.4%向上し,他のモデルにまたがって広範な性能向上を実現している。
関連論文リスト
- Self-Correcting Decoding with Generative Feedback for Mitigating Hallucinations in Large Vision-Language Models [66.71616369573715]
LVLM(Large Vision-Language Models)は、与えられた視覚入力と一致しない幻覚的テキスト応答を生成する傾向がある。
テキストから画像への生成モデルからのフィードバックをデコードプロセスに組み込んだ,新たなトレーニングフリーアルゴリズムである生成フィードバック付き自己修正デコード(DeGF)を導入する。
論文 参考訳(メタデータ) (2025-02-10T03:43:55Z) - DRIVINGVQA: Analyzing Visual Chain-of-Thought Reasoning of Vision Language Models in Real-World Scenarios with Driving Theory Tests [69.00444996464662]
本稿では、複雑な実世界のシナリオにおける視覚的連鎖推論を評価するために、駆動理論テストから得られた新しいベンチマークであるDrivingVQAを提案する。
実験の結果,オープンソースおよびプロプライエタリなLVLMは,ゼロショット設定下での視覚的連鎖推論に苦慮していることがわかった。
視覚的推論を改善するために関連エンティティを活用するトレーニング戦略について検討する。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - HALLUCINOGEN: A Benchmark for Evaluating Object Hallucination in Large Visual-Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクの実行において顕著な性能を示す。
本稿では,新しい視覚的質問応答(VQA)オブジェクト幻覚攻撃ベンチマークであるHALLUCINOGENを提案する。
バイオメディカルドメインに適合した幻覚攻撃であるMED-HALLUCINOGENを導入した。
論文 参考訳(メタデータ) (2024-12-29T23:56:01Z) - HELPD: Mitigating Hallucination of LVLMs by Hierarchical Feedback Learning with Vision-enhanced Penalty Decoding [36.360171373963716]
LVLM(Large Vision-Language Models)は多くの視覚言語タスクにおいて顕著な性能を示している。
これらのモデルはまだマルチモーダル幻覚に悩まされており、それは画像に反するオブジェクトやコンテンツの生成を意味する。
本稿では、この問題に対処するために、視力強化されたペナルティ復号法(HELPD)を用いた階層的フィードバック学習を提案する。
論文 参考訳(メタデータ) (2024-09-30T15:52:05Z) - FIHA: Autonomous Hallucination Evaluation in Vision-Language Models with Davidson Scene Graphs [12.533011020126855]
FIHA (Autonomous Fine-grained Hallucination evAluation Evaluation in LVLMs) について紹介する。
FIHAは、LLMフリーでアノテーションフリーな方法で幻覚LVLMにアクセスし、異なる種類の幻覚間の依存性をモデル化することができた。
FIHA-v1 というベンチマークを導入し,MSCOCO と Foggy の様々な画像に対する多様な質問からなる。
論文 参考訳(メタデータ) (2024-09-20T16:19:53Z) - Look, Compare, Decide: Alleviating Hallucination in Large Vision-Language Models via Multi-View Multi-Path Reasoning [24.270713960060142]
LVLM(Large Vision-Language Models)は、マルチモーダルコンテキスト理解における印象的な機能を示す。
彼らはまだ、画像の内容と矛盾する出力を生成することを参照して幻覚に悩まされている。
LVLMの生来の能力を最大限活用して幻覚を減らすことを目的とした、トレーニングフリーフレームワークである textbfMVP を提案する。
論文 参考訳(メタデータ) (2024-08-30T09:40:10Z) - Multi-Modal Hallucination Control by Visual Information Grounding [121.6983694815504]
本稿では,VLM(Generative Vision-Language Models)が,入力画像に常に接するとは限らない,可聴性のあるテキスト応答を生成する傾向があることを示す。
即時増幅のための新しいサンプリング手法であるM3ID(Multi-Modal Mutual-Information Decoding)を導入する。
M3IDは、言語に対する参照画像の影響を増幅し、視覚的プロンプトと高い相互情報を持つトークンの生成を優先する。
論文 参考訳(メタデータ) (2024-03-20T22:05:18Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z) - Detecting and Preventing Hallucinations in Large Vision Language Models [4.7264116948935975]
M-HalDetectは、詳細な画像記述のための最初のマルチモーダル幻覚検出データセットである。
InstructBLIPから細粒度マルチモーダル報酬モデルを訓練し,その有効性を評価する。
LLaVAとmPLUG-OWLの幻覚をそれぞれ15%と57%低減する。
論文 参考訳(メタデータ) (2023-08-11T21:35:20Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。