Fugu-MT 論文翻訳(概要): Visual Hallucinations of Multi-modal Large Language Models

論文の概要: Visual Hallucinations of Multi-modal Large Language Models

arxiv url: http://arxiv.org/abs/2402.14683v2
Date: Sun, 16 Jun 2024 18:43:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 05:56:21.947572
Title: Visual Hallucinations of Multi-modal Large Language Models
Title（参考訳）: マルチモーダル大言語モデルの視覚的幻覚
Authors: Wen Huang, Hongbin Liu, Minxin Guo, Neil Zhenqiang Gong,
Abstract要約: 視覚幻覚(VH)とは、マルチモーダル LLM が視覚的質問応答における画像に関する誤った詳細を想像することを意味する。既存の研究は、既存の画像データセットにのみVHインスタンスを見つける。多様なVHインスタンスを生成するために,VHTestを提案する。
参考スコア（独自算出の注目度）: 37.5954827709964
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual hallucination (VH) means that a multi-modal LLM (MLLM) imagines incorrect details about an image in visual question answering. Existing studies find VH instances only in existing image datasets, which results in biased understanding of MLLMs' performance under VH due to limited diversity of such VH instances. In this work, we propose a tool called VHTest to generate a diverse set of VH instances. Specifically, VHTest finds some initial VH instances in existing image datasets (e.g., COCO), generates a text description for each VH mode, and uses a text-to-image generative model (e.g., DALL-E-3) to generate VH images based on the text descriptions. We collect a benchmark dataset with 1,200 VH instances in 8 VH modes using VHTest. We find that existing MLLMs such as GPT-4V, LLaVA-1.5, and MiniGPT-v2 hallucinate for a large fraction of the instances in our benchmark. Moreover, we find that fine-tuning an MLLM using our benchmark dataset reduces its likelihood to hallucinate without sacrificing its performance on other benchmarks. Our benchmarks are publicly available: https://github.com/wenhuang2000/VHTest.
Abstract（参考訳）: 視覚幻覚(VH)とは、マルチモーダル LLM (MLLM) が視覚的質問応答における画像に関する誤った詳細を想像することを意味する。既存の研究では、既存の画像データセットにのみVHインスタンスが見出され、その結果、そのようなVHインスタンスの多様性が限定されているため、VH下でのMLLMのパフォーマンスのバイアス付き理解が得られている。本稿では,VHTestと呼ばれる,VHインスタンスの多種多様なセットを生成するツールを提案する。具体的には、VHTestは既存の画像データセット(例えばCOCO)の初期VHインスタンスを見つけ、各VHモードのテキスト記述を生成し、テキストから画像への生成モデル(例えばDALL-E-3)を使用して、テキスト記述に基づいてVHイメージを生成する。 VHTestを使って、1200VHインスタンスを8VHモードで収集する。 GPT-4V, LLaVA-1.5, MiniGPT-v2などの既存のMLLMは, ベンチマーク結果のかなりの割合で幻覚することがわかった。さらに,ベンチマークデータセットを用いてMLLMの微調整を行うことで,他のベンチマークのパフォーマンスを犠牲にすることなく幻覚の可能性が低下することがわかった。私たちのベンチマークは、https://github.com/wenhuang2000/VHTest.comで公開されています。

関連論文リスト

Hallucination-Aware Multimodal Benchmark for Gastrointestinal Image Analysis with Large Vision-Language Models [5.545334160894197]
VLM(Vision-Language Models)は、医療領域において、医療画像と臨床言語とのギャップを埋めることによって、ますます人気が高まっている。しかしながら、幻覚(幻覚)-視覚内容と矛盾する記述を生成する傾向-は、VLMにおいて重要な問題である。 VLMによる消化管画像解析と幻覚の研究を容易にするため,マルチモーダル画像テキストGIデータセットをキュレートする。このデータセットは2段階のパイプラインを使用して作成される。まず、Kvasir-v2画像の詳細な医療報告はChatGPTを使用して生成される。
論文参考訳（メタデータ） (2025-05-11T14:54:11Z)
DASH: Detection and Assessment of Systematic Hallucinations of VLMs [35.458709912618176]
視覚言語モデル(VLM)は、画像中の特定の物体の存在を誤って示す物体幻覚の傾向にある。本研究では,実世界の画像上でのVLMの系統的幻覚を特定するための大規模自動パイプラインであるDASHを提案する。 DASHをPaliGemmaに適用し、380のオブジェクトクラスに2つのLLaVA-NeXTモデルを適用する。
論文参考訳（メタデータ） (2025-03-30T19:45:09Z)
Probing Visual Language Priors in VLMs [51.016683265437536]
我々は,意図的に分布外画像を特徴付けるベンチマークであるViLPを紹介した。 ViLPの各質問には、3つの潜在的な答えと3つの対応するイメージが結合される。本稿では,モデルが新たなVQAデータを生成し,ピクセルレベルおよびセマンティックな汚職を適用して,自己学習のための「良いバッド」画像ペアを生成する自己改善フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-31T17:54:29Z)
Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension [95.63899307791665]
視覚価値モデル(VisVM)は、VLM推論時間探索をガイドして、より良い視覚的理解で応答を生成する。本稿では、VLM推論時間探索をガイドし、視覚的理解を向上した応答を生成するVisVMを提案する。
論文参考訳（メタデータ） (2024-12-04T20:35:07Z)
Automatically Generating Visual Hallucination Test Cases for Multimodal Large Language Models [33.813597810387144]
視覚幻覚 (VH) は、マルチモーダル大言語モデル (MLLM) がプロンプトに対して誤った視覚的詳細を持つ応答を生成するときに発生する。 MLLMのVHテストケースを拡張するための最初の自動手法であるVHExpansionを紹介する。また, 正解VHテストケース対の正解率を測定するための新しい評価基準, 対称精度も提案する。
論文参考訳（メタデータ） (2024-10-15T03:56:16Z)
LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。 LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文参考訳（メタデータ） (2024-10-13T18:59:58Z)
Attention Prompting on Image for Large Vision-Language Models [63.794304207664176]
本稿では,画像上の注意喚起という新しいプロンプト手法を提案する。我々は,CLIPのような補助モデルを用いて,テキストクエリに依存する入力画像に対するアテンションヒートマップを生成する。各種バイソン言語ベンチマークの実験により,本手法の有効性が検証された。
論文参考訳（メタデータ） (2024-09-25T17:59:13Z)
Improving the Efficiency of Visually Augmented Language Models [5.948051066733892]
本稿では,LMを視覚的に拡張するために明示的な画像は必要ないことを示す。代わりに、よく知られたCLIPマルチモーダルシステムから得られる視覚的なテキスト表現を使用する。 BLIND-VALMは、VALM for Visual Language Understanding (VLU)、Natural Language Understanding (NLU)、Language Modelingタスクと同等に動作することを示す。
論文参考訳（メタデータ） (2024-09-17T13:02:19Z)
Revisiting Multi-Modal LLM Evaluation [29.094387692681337]
我々は,最近のMLLM(LLaVA 1.5, LLaVA-NeXT, BLIP2, InstructBLIP, GPT-4V, GPT-4o)を,以前のMLLMの弱点に対処するためのデータセット上で評価した。我々のコードはMLLM評価のために広く使われているLAVISフレームワークに統合されており、将来のMLLMの迅速な評価を可能にしている。
論文参考訳（メタデータ） (2024-08-09T20:55:46Z)
WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences [122.87483437694706]
WildVision-Arena(WV-Arena)は、人間の好みを収集して視覚言語モデル(VLM)を評価するオンラインプラットフォームです。 WV-ベンチは、それぞれのVLMとClaude-3-Sonnetを比較し、WV-Arena Eloの0.94のスピアマン相関を達成している。実世界の20万件のインタラクションを包括的に分析した結果,トップパフォーマンスのVLMの障害事例に対する重要な洞察が得られた。
論文参考訳（メタデータ） (2024-06-16T20:53:25Z)
Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文参考訳（メタデータ） (2024-02-11T06:44:11Z)
Video-LLaVA: Learning United Visual Representation by Alignment Before Projection [27.04277811443469]
Video-LLaVAは、画像とビデオの混合データセットから学習し、相互に強化する。 Video-LLaVAは5つの画像問合せデータセットと4つの画像ベンチマークツールキットにまたがる9つの画像ベンチマークで優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2023-11-16T10:59:44Z)
Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V [103.68138147783614]
大規模マルチモーダルモデルの視覚的グラウンド化能力を解き放つために,新しい視覚的プロンプト手法であるSet-of-Mark(SoM)を提案する。我々は、SEEM/SAMのような市販のインタラクティブセグメンテーションモデルを用いて、画像を領域に分割し、これらの領域を一連のマークでオーバーレイする。マークされたイメージを入力として使用することで、GPT-4Vは視覚的な接地を必要とする質問に答えることができる。
論文参考訳（メタデータ） (2023-10-17T17:51:31Z)
Learning by Hallucinating: Vision-Language Pre-training with Weak Supervision [6.8582563015193]
弱教師付き視覚言語事前学習は、ほとんどあるいは全くペアのデータを持たないクロスモーダルアライメントを学習することを目的としている。オブジェクトタグと視覚的特徴をペアリングする最近の手法は、様々なV-L下流タスクで整列ペアで訓練されたモデルと同等のパフォーマンスを達成するのに役立っている。 Visual Vocabulary based Feature Hallucinator (WFH) を用いたモデル管理のためのペアV-Lデータの欠如に対処する。 WFHはテキストから視覚的な幻覚を生成し、元の未読テキストとペアリングすることで、モダリティ間のより多様な相互作用を可能にする。
論文参考訳（メタデータ） (2022-10-24T20:30:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。