論文の概要: Visual Hallucinations of Multi-modal Large Language Models
- arxiv url: http://arxiv.org/abs/2402.14683v1
- Date: Thu, 22 Feb 2024 16:40:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 14:33:30.962512
- Title: Visual Hallucinations of Multi-modal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルの視覚的幻覚
- Authors: Wen Huang, Hongbin Liu, Minxin Guo, Neil Zhenqiang Gong
- Abstract要約: 視覚幻覚(VH)とは、マルチモーダル LLM が視覚的質問応答における画像に関する誤った詳細を想像することを意味する。
既存の研究は、既存の画像データセットにのみVHインスタンスを見つける。
多様なVHインスタンスを生成するために,VHTestを提案する。
- 参考スコア(独自算出の注目度): 41.07036408624625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual hallucination (VH) means that a multi-modal LLM (MLLM) imagines
incorrect details about an image in visual question answering. Existing studies
find VH instances only in existing image datasets, which results in biased
understanding of MLLMs' performance under VH due to limited diversity of such
VH instances. In this work, we propose a tool called VHTest to generate a
diverse set of VH instances. Specifically, VHTest finds some initial VH
instances in existing image datasets (e.g., COCO), generates a text description
for each VH mode, and uses a text-to-image generative model (e.g., DALL-E-3) to
generate VH images based on the text descriptions. We collect a benchmark
dataset with 1,200 VH instances in 8 VH modes using VHTest. We find that
existing MLLMs such as GPT-4V, LLaVA-1.5, and MiniGPT-v2 hallucinate for a
large fraction of the instances in our benchmark. Moreover, we find that
fine-tuning an MLLM using our benchmark dataset reduces its likelihood to
hallucinate without sacrificing its performance on other benchmarks. Our
benchmarks are publicly available: https://github.com/wenhuang2000/VHTest.
- Abstract(参考訳): 視覚幻覚(VH)とは、マルチモーダル LLM (MLLM) が視覚的質問応答における画像に関する誤った詳細を想像することを意味する。
既存の研究では、既存の画像データセットにのみVHインスタンスが見出され、その結果、そのようなVHインスタンスの多様性が限定されているため、VH下でのMLLMのパフォーマンスのバイアス付き理解が生まれる。
本稿では,VHTestと呼ばれる,VHインスタンスの多様なセットを生成するツールを提案する。
具体的には、VHTestは既存の画像データセット(例えばCOCO)の初期VHインスタンスを見つけ、各VHモードのテキスト記述を生成し、テキストから画像への生成モデル(例えばDALL-E-3)を使用してテキスト記述に基づいてVH画像を生成する。
VHTestを使って、1200VHインスタンスを8VHモードで収集する。
GPT-4V, LLaVA-1.5, MiniGPT-v2などの既存のMLLMは, ベンチマーク結果のかなりの割合で幻覚することがわかった。
さらに,ベンチマークデータセットを用いてMLLMの微調整を行うことで,他のベンチマークのパフォーマンスを犠牲にすることなく幻覚の可能性が低下することがわかった。
ベンチマークは、https://github.com/wenhuang2000/vhtestで公開しています。
関連論文リスト
- Automatically Generating Visual Hallucination Test Cases for Multimodal Large Language Models [33.813597810387144]
視覚幻覚 (VH) は、マルチモーダル大言語モデル (MLLM) がプロンプトに対して誤った視覚的詳細を持つ応答を生成するときに発生する。
MLLMのVHテストケースを拡張するための最初の自動手法であるVHExpansionを紹介する。
また, 正解VHテストケース対の正解率を測定するための新しい評価基準, 対称精度も提案する。
論文 参考訳(メタデータ) (2024-10-15T03:56:16Z) - LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。
LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文 参考訳(メタデータ) (2024-10-13T18:59:58Z) - Attention Prompting on Image for Large Vision-Language Models [63.794304207664176]
本稿では,画像上の注意喚起という新しいプロンプト手法を提案する。
我々は,CLIPのような補助モデルを用いて,テキストクエリに依存する入力画像に対するアテンションヒートマップを生成する。
各種バイソン言語ベンチマークの実験により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-09-25T17:59:13Z) - Improving the Efficiency of Visually Augmented Language Models [5.948051066733892]
本稿では,LMを視覚的に拡張するために明示的な画像は必要ないことを示す。
代わりに、よく知られたCLIPマルチモーダルシステムから得られる視覚的なテキスト表現を使用する。
BLIND-VALMは、VALM for Visual Language Understanding (VLU)、Natural Language Understanding (NLU)、Language Modelingタスクと同等に動作することを示す。
論文 参考訳(メタデータ) (2024-09-17T13:02:19Z) - Revisiting Multi-Modal LLM Evaluation [29.094387692681337]
我々は,最近のMLLM(LLaVA 1.5, LLaVA-NeXT, BLIP2, InstructBLIP, GPT-4V, GPT-4o)を,以前のMLLMの弱点に対処するためのデータセット上で評価した。
我々のコードはMLLM評価のために広く使われているLAVISフレームワークに統合されており、将来のMLLMの迅速な評価を可能にしている。
論文 参考訳(メタデータ) (2024-08-09T20:55:46Z) - WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences [122.87483437694706]
WildVision-Arena(WV-Arena)は、人間の好みを収集して視覚言語モデル(VLM)を評価するオンラインプラットフォームです。
WV-ベンチは、それぞれのVLMとClaude-3-Sonnetを比較し、WV-Arena Eloの0.94のスピアマン相関を達成している。
実世界の20万件のインタラクションを包括的に分析した結果,トップパフォーマンスのVLMの障害事例に対する重要な洞察が得られた。
論文 参考訳(メタデータ) (2024-06-16T20:53:25Z) - Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。
我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。
複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文 参考訳(メタデータ) (2024-02-11T06:44:11Z) - Video-LLaVA: Learning United Visual Representation by Alignment Before Projection [27.04277811443469]
Video-LLaVAは、画像とビデオの混合データセットから学習し、相互に強化する。
Video-LLaVAは5つの画像問合せデータセットと4つの画像ベンチマークツールキットにまたがる9つの画像ベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-11-16T10:59:44Z) - Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V [103.68138147783614]
大規模マルチモーダルモデルの視覚的グラウンド化能力を解き放つために,新しい視覚的プロンプト手法であるSet-of-Mark(SoM)を提案する。
我々は、SEEM/SAMのような市販のインタラクティブセグメンテーションモデルを用いて、画像を領域に分割し、これらの領域を一連のマークでオーバーレイする。
マークされたイメージを入力として使用することで、GPT-4Vは視覚的な接地を必要とする質問に答えることができる。
論文 参考訳(メタデータ) (2023-10-17T17:51:31Z) - Learning by Hallucinating: Vision-Language Pre-training with Weak
Supervision [6.8582563015193]
弱教師付き視覚言語事前学習は、ほとんどあるいは全くペアのデータを持たないクロスモーダルアライメントを学習することを目的としている。
オブジェクトタグと視覚的特徴をペアリングする最近の手法は、様々なV-L下流タスクで整列ペアで訓練されたモデルと同等のパフォーマンスを達成するのに役立っている。
Visual Vocabulary based Feature Hallucinator (WFH) を用いたモデル管理のためのペアV-Lデータの欠如に対処する。
WFHはテキストから視覚的な幻覚を生成し、元の未読テキストとペアリングすることで、モダリティ間のより多様な相互作用を可能にする。
論文 参考訳(メタデータ) (2022-10-24T20:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。