論文の概要: Mitigating Hallucination in Visual Language Models with Visual
Supervision
- arxiv url: http://arxiv.org/abs/2311.16479v1
- Date: Mon, 27 Nov 2023 09:30:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 20:11:41.111824
- Title: Mitigating Hallucination in Visual Language Models with Visual
Supervision
- Title(参考訳): 視覚指導による視覚言語モデルの幻覚緩和
- Authors: Zhiyang Chen, Yousong Zhu, Yufei Zhan, Zhaowen Li, Chaoyang Zhao,
Jinqiao Wang, Ming Tang
- Abstract要約: 大きな視覚言語モデル(LVLM)は幻覚に悩まされている。
鍵となる問題は、マルチモーダルなコンテキストで詳細なコンテンツを理解できないことだ。
本稿では,LVLMのトレーニングを容易にするために,より詳細な視覚アノテーションとより識別可能な視覚モデルを提案する。
- 参考スコア(独自算出の注目度): 33.05550629039951
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large vision-language models (LVLMs) suffer from hallucination a lot,
generating responses that apparently contradict to the image content
occasionally. The key problem lies in its weak ability to comprehend detailed
content in a multi-modal context, which can be mainly attributed to two factors
in training data and loss function. The vision instruction dataset primarily
focuses on global description, and the auto-regressive loss function favors
text modeling rather than image understanding. In this paper, we bring more
detailed vision annotations and more discriminative vision models to facilitate
the training of LVLMs, so that they can generate more precise responses without
encounter hallucination. On one hand, we generate image-text pairs with
detailed relationship annotations in panoptic scene graph dataset (PSG). These
conversations pay more attention on detailed facts in the image, encouraging
the model to answer questions based on multi-modal contexts. On the other hand,
we integrate SAM and mask prediction loss as auxiliary supervision, forcing the
LVLMs to have the capacity to identify context-related objects, so that they
can generate more accurate responses, mitigating hallucination. Moreover, to
provide a deeper evaluation on the hallucination in LVLMs, we propose a new
benchmark, RAH-Bench. It divides vision hallucination into three different
types that contradicts the image with wrong categories, attributes or
relations, and introduces False Positive Rate as detailed sub-metric for each
type. In this benchmark, our approach demonstrates an +8.4% enhancement
compared to original LLaVA and achieves widespread performance improvements
across other models.
- Abstract(参考訳): 大規模な視覚言語モデル(LVLM)は幻覚に悩まされ、画像の内容と矛盾する反応を生じる。
鍵となる問題は、詳細なコンテンツをマルチモーダルなコンテキストで理解する能力の弱いことであり、これは主にトレーニングデータと損失関数の2つの要因によって引き起こされる。
ビジョン命令データセットは主にグローバル記述に焦点を当てており、自動回帰損失関数は画像理解よりもテキストモデリングを好む。
本稿では,LVLMの訓練を容易にするために,より詳細な視覚アノテーションや識別的視覚モデルを導入し,幻覚に遭遇することなくより正確な応答を生成できるようにする。
一方,panoptic scene graph dataset (psg) では,詳細な関係アノテーションを用いた画像テキストペアを生成する。
これらの会話は、画像内の詳細な事実により多くの注意を払い、マルチモーダルコンテキストに基づいた質問に答えるようモデルに促す。
一方で,sam と mask prediction loss を補助監督として統合し,lvlm に文脈関連オブジェクトを識別する能力を持たせ,より正確な応答を生成し,幻覚を緩和する。
さらに,LVLMの幻覚をより深く評価するために,新しいベンチマークRAH-Benchを提案する。
視覚幻覚を3つの異なるタイプに分割し、間違ったカテゴリ、属性、関係で画像と矛盾し、各タイプの詳細なサブメトリックとして偽陽性率を導入する。
本ベンチマークでは,従来のLLaVAに比べて+8.4%向上し,他のモデルにまたがって広範な性能向上を実現している。
関連論文リスト
- Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - V-DPO: Mitigating Hallucination in Large Vision Language Models via Vision-Guided Direct Preference Optimization [21.248617886995103]
トレーニング時の視覚的コンテキスト学習を改善するために,視覚誘導直接選択最適化(V-DPO)を提案する。
分析の結果,V-DPOは画像コントラストの嗜好データからの学習に優れており,視覚的文脈のニュアンスを抽出し理解する能力に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-11-05T01:24:37Z) - HELPD: Mitigating Hallucination of LVLMs by Hierarchical Feedback Learning with Vision-enhanced Penalty Decoding [36.360171373963716]
LVLM(Large Vision-Language Models)は多くの視覚言語タスクにおいて顕著な性能を示している。
これらのモデルはまだマルチモーダル幻覚に悩まされており、それは画像に反するオブジェクトやコンテンツの生成を意味する。
本稿では、この問題に対処するために、視力強化されたペナルティ復号法(HELPD)を用いた階層的フィードバック学習を提案する。
論文 参考訳(メタデータ) (2024-09-30T15:52:05Z) - FIHA: Autonomous Hallucination Evaluation in Vision-Language Models with Davidson Scene Graphs [12.533011020126855]
FIHA (Autonomous Fine-grained Hallucination evAluation Evaluation in LVLMs) について紹介する。
FIHAは、LLMフリーでアノテーションフリーな方法で幻覚LVLMにアクセスし、異なる種類の幻覚間の依存性をモデル化することができた。
FIHA-v1 というベンチマークを導入し,MSCOCO と Foggy の様々な画像に対する多様な質問からなる。
論文 参考訳(メタデータ) (2024-09-20T16:19:53Z) - Look, Compare, Decide: Alleviating Hallucination in Large Vision-Language Models via Multi-View Multi-Path Reasoning [24.270713960060142]
LVLM(Large Vision-Language Models)は、マルチモーダルコンテキスト理解における印象的な機能を示す。
彼らはまだ、画像の内容と矛盾する出力を生成することを参照して幻覚に悩まされている。
LVLMの生来の能力を最大限活用して幻覚を減らすことを目的とした、トレーニングフリーフレームワークである textbfMVP を提案する。
論文 参考訳(メタデータ) (2024-08-30T09:40:10Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z) - Multi-Modal Hallucination Control by Visual Information Grounding [121.6983694815504]
本稿では,VLM(Generative Vision-Language Models)が,入力画像に常に接するとは限らない,可聴性のあるテキスト応答を生成する傾向があることを示す。
即時増幅のための新しいサンプリング手法であるM3ID(Multi-Modal Mutual-Information Decoding)を導入する。
M3IDは、言語に対する参照画像の影響を増幅し、視覚的プロンプトと高い相互情報を持つトークンの生成を優先する。
論文 参考訳(メタデータ) (2024-03-20T22:05:18Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z) - Analyzing and Mitigating Object Hallucination in Large Vision-Language Models [110.12460299261531]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する際、顕著な能力を示した。
LVLMは依然として物体幻覚に悩まされており、画像に実際に存在しない物体を含む記述を生成するという問題である。
そこで我々は,LVLMの幻覚を再現するアルゴリズム LVLM Hallucination Revisor (LURE) を提案する。
論文 参考訳(メタデータ) (2023-10-01T18:10:53Z) - Detecting and Preventing Hallucinations in Large Vision Language Models [4.7264116948935975]
M-HalDetectは、詳細な画像記述のための最初のマルチモーダル幻覚検出データセットである。
InstructBLIPから細粒度マルチモーダル報酬モデルを訓練し,その有効性を評価する。
LLaVAとmPLUG-OWLの幻覚をそれぞれ15%と57%低減する。
論文 参考訳(メタデータ) (2023-08-11T21:35:20Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。