論文の概要: Visual Hallucinations of Multi-modal Large Language Models
- arxiv url: http://arxiv.org/abs/2402.14683v2
- Date: Sun, 16 Jun 2024 18:43:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 05:56:21.947572
- Title: Visual Hallucinations of Multi-modal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルの視覚的幻覚
- Authors: Wen Huang, Hongbin Liu, Minxin Guo, Neil Zhenqiang Gong,
- Abstract要約: 視覚幻覚(VH)とは、マルチモーダル LLM が視覚的質問応答における画像に関する誤った詳細を想像することを意味する。
既存の研究は、既存の画像データセットにのみVHインスタンスを見つける。
多様なVHインスタンスを生成するために,VHTestを提案する。
- 参考スコア(独自算出の注目度): 37.5954827709964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual hallucination (VH) means that a multi-modal LLM (MLLM) imagines incorrect details about an image in visual question answering. Existing studies find VH instances only in existing image datasets, which results in biased understanding of MLLMs' performance under VH due to limited diversity of such VH instances. In this work, we propose a tool called VHTest to generate a diverse set of VH instances. Specifically, VHTest finds some initial VH instances in existing image datasets (e.g., COCO), generates a text description for each VH mode, and uses a text-to-image generative model (e.g., DALL-E-3) to generate VH images based on the text descriptions. We collect a benchmark dataset with 1,200 VH instances in 8 VH modes using VHTest. We find that existing MLLMs such as GPT-4V, LLaVA-1.5, and MiniGPT-v2 hallucinate for a large fraction of the instances in our benchmark. Moreover, we find that fine-tuning an MLLM using our benchmark dataset reduces its likelihood to hallucinate without sacrificing its performance on other benchmarks. Our benchmarks are publicly available: https://github.com/wenhuang2000/VHTest.
- Abstract(参考訳): 視覚幻覚(VH)とは、マルチモーダル LLM (MLLM) が視覚的質問応答における画像に関する誤った詳細を想像することを意味する。
既存の研究では、既存の画像データセットにのみVHインスタンスが見出され、その結果、そのようなVHインスタンスの多様性が限定されているため、VH下でのMLLMのパフォーマンスのバイアス付き理解が得られている。
本稿では,VHTestと呼ばれる,VHインスタンスの多種多様なセットを生成するツールを提案する。
具体的には、VHTestは既存の画像データセット(例えばCOCO)の初期VHインスタンスを見つけ、各VHモードのテキスト記述を生成し、テキストから画像への生成モデル(例えばDALL-E-3)を使用して、テキスト記述に基づいてVHイメージを生成する。
VHTestを使って、1200VHインスタンスを8VHモードで収集する。
GPT-4V, LLaVA-1.5, MiniGPT-v2などの既存のMLLMは, ベンチマーク結果のかなりの割合で幻覚することがわかった。
さらに,ベンチマークデータセットを用いてMLLMの微調整を行うことで,他のベンチマークのパフォーマンスを犠牲にすることなく幻覚の可能性が低下することがわかった。
私たちのベンチマークは、https://github.com/wenhuang2000/VHTest.comで公開されています。
関連論文リスト
- Probing Visual Language Priors in VLMs [51.016683265437536]
我々は,意図的に分布外画像を特徴付けるベンチマークであるViLPを紹介した。
ViLPの各質問には、3つの潜在的な答えと3つの対応するイメージが結合される。
本稿では,モデルが新たなVQAデータを生成し,ピクセルレベルおよびセマンティックな汚職を適用して,自己学習のための「良いバッド」画像ペアを生成する自己改善フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-31T17:54:29Z) - Do Multimodal Large Language Models See Like Humans? [50.938168841711445]
MLLM(Multimodal Large Language Models)は、様々なビジョンタスクにおいて、近年の大規模言語モデルの進歩を生かして、印象的な成果を上げている。
MLLMは人間と同じような視覚情報を知覚しているか?
HVSBenchは、人間の視覚を反映する基本的な視覚タスクにおいて、MLLMと人間の視覚システム(HVS)の整合性を評価するために設計された大規模なベンチマークである。
論文 参考訳(メタデータ) (2024-12-12T18:59:25Z) - Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension [95.63899307791665]
視覚価値モデル(VisVM)は、VLM推論時間探索をガイドして、より良い視覚的理解で応答を生成する。
本稿では、VLM推論時間探索をガイドし、視覚的理解を向上した応答を生成するVisVMを提案する。
論文 参考訳(メタデータ) (2024-12-04T20:35:07Z) - Automatically Generating Visual Hallucination Test Cases for Multimodal Large Language Models [33.813597810387144]
視覚幻覚 (VH) は、マルチモーダル大言語モデル (MLLM) がプロンプトに対して誤った視覚的詳細を持つ応答を生成するときに発生する。
MLLMのVHテストケースを拡張するための最初の自動手法であるVHExpansionを紹介する。
また, 正解VHテストケース対の正解率を測定するための新しい評価基準, 対称精度も提案する。
論文 参考訳(メタデータ) (2024-10-15T03:56:16Z) - LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。
LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文 参考訳(メタデータ) (2024-10-13T18:59:58Z) - Improving the Efficiency of Visually Augmented Language Models [5.948051066733892]
本稿では,LMを視覚的に拡張するために明示的な画像は必要ないことを示す。
代わりに、よく知られたCLIPマルチモーダルシステムから得られる視覚的なテキスト表現を使用する。
BLIND-VALMは、VALM for Visual Language Understanding (VLU)、Natural Language Understanding (NLU)、Language Modelingタスクと同等に動作することを示す。
論文 参考訳(メタデータ) (2024-09-17T13:02:19Z) - Video-LLaVA: Learning United Visual Representation by Alignment Before Projection [27.04277811443469]
Video-LLaVAは、画像とビデオの混合データセットから学習し、相互に強化する。
Video-LLaVAは5つの画像問合せデータセットと4つの画像ベンチマークツールキットにまたがる9つの画像ベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-11-16T10:59:44Z) - Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V [103.68138147783614]
大規模マルチモーダルモデルの視覚的グラウンド化能力を解き放つために,新しい視覚的プロンプト手法であるSet-of-Mark(SoM)を提案する。
我々は、SEEM/SAMのような市販のインタラクティブセグメンテーションモデルを用いて、画像を領域に分割し、これらの領域を一連のマークでオーバーレイする。
マークされたイメージを入力として使用することで、GPT-4Vは視覚的な接地を必要とする質問に答えることができる。
論文 参考訳(メタデータ) (2023-10-17T17:51:31Z) - Learning by Hallucinating: Vision-Language Pre-training with Weak
Supervision [6.8582563015193]
弱教師付き視覚言語事前学習は、ほとんどあるいは全くペアのデータを持たないクロスモーダルアライメントを学習することを目的としている。
オブジェクトタグと視覚的特徴をペアリングする最近の手法は、様々なV-L下流タスクで整列ペアで訓練されたモデルと同等のパフォーマンスを達成するのに役立っている。
Visual Vocabulary based Feature Hallucinator (WFH) を用いたモデル管理のためのペアV-Lデータの欠如に対処する。
WFHはテキストから視覚的な幻覚を生成し、元の未読テキストとペアリングすることで、モダリティ間のより多様な相互作用を可能にする。
論文 参考訳(メタデータ) (2022-10-24T20:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。