論文の概要: Automatically Generating Visual Hallucination Test Cases for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2410.11242v1
- Date: Tue, 15 Oct 2024 03:56:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:04:29.818898
- Title: Automatically Generating Visual Hallucination Test Cases for Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルのための視覚幻覚検査ケースの自動生成
- Authors: Zhongye Liu, Hongbin Liu, Yuepeng Hu, Zedian Shao, Neil Zhenqiang Gong,
- Abstract要約: 視覚幻覚 (VH) は、マルチモーダル大言語モデル (MLLM) がプロンプトに対して誤った視覚的詳細を持つ応答を生成するときに発生する。
MLLMのVHテストケースを拡張するための最初の自動手法であるVHExpansionを紹介する。
また, 正解VHテストケース対の正解率を測定するための新しい評価基準, 対称精度も提案する。
- 参考スコア(独自算出の注目度): 33.813597810387144
- License:
- Abstract: Visual hallucination (VH) occurs when a multimodal large language model (MLLM) generates responses with incorrect visual details for prompts. Existing methods for generating VH test cases primarily rely on human annotations, typically in the form of triples: (image, question, answer). In this paper, we introduce VHExpansion, the first automated method for expanding VH test cases for MLLMs. Given an initial VH test case, VHExpansion automatically expands it by perturbing the question and answer through negation as well as modifying the image using both common and adversarial perturbations. Additionally, we propose a new evaluation metric, symmetric accuracy, which measures the proportion of correctly answered VH test-case pairs. Each pair consists of a test case and its negated counterpart. Our theoretical analysis shows that symmetric accuracy is an unbiased evaluation metric that remains unaffected by the imbalance of VH testing cases with varying answers when an MLLM is randomly guessing the answers, whereas traditional accuracy is prone to such imbalance. We apply VHExpansion to expand three VH datasets annotated manually and use these expanded datasets to benchmark seven MLLMs. Our evaluation shows that VHExpansion effectively identifies more VH test cases. Moreover, symmetric accuracy, being unbiased, leads to different conclusions about the vulnerability of MLLMs to VH compared to traditional accuracy metric. Finally, we show that fine-tuning MLLMs on the expanded VH dataset generated by VHExpansion mitigates VH more effectively than fine-tuning on the original, manually annotated dataset. Our code is available at: https://github.com/lycheeefish/VHExpansion.
- Abstract(参考訳): 視覚幻覚(VH)は、マルチモーダルな大言語モデル(MLLM)がプロンプトに対して誤った視覚的詳細を持つ応答を生成するときに発生する。
VHテストケースを生成する既存の方法は、主に人間のアノテーションに依存しています。
本稿では,MLLMのVHテストケースを拡張するための最初の自動手法であるVHExpansionを紹介する。
最初のVHテストケースが与えられた場合、VHExpansionは、質問と回答を否定を通じて摂動させ、また、共通の摂動と対向的な摂動の両方を用いて画像を修正することによって自動的に拡張する。
さらに, 正解VHテストケース対の正解率を測定するための新しい評価基準, 対称精度を提案する。
各ペアは、テストケースと、その無効化されたテストケースで構成される。
我々の理論的分析は, MLLMがランダムに解を推測する場合, VHテストケースの不均衡の影響を受けない非バイアス評価指標であり, 従来の精度はそのような不均衡を生じやすいことを示している。
3つのVHデータセットを手動で拡張するためにVHExpansionを適用し、これらの拡張データセットを使用して7つのMLLMをベンチマークする。
以上の結果から,VHExpansionはより多くのVHテストケースを効果的に同定できることが示唆された。
さらに、対称精度は非バイアスであり、従来の精度測定値と比較して、MLLMのVHに対する脆弱性について異なる結論をもたらす。
最後に、VHExpansionによって生成された拡張VHデータセット上の微調整MLLMは、オリジナルの手動注釈付きデータセットの微調整よりも効果的にVHを緩和することを示す。
私たちのコードは、https://github.com/lycheeefish/VHExpansion.comで利用可能です。
関連論文リスト
- Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。
我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文 参考訳(メタデータ) (2024-10-17T01:19:18Z) - CAST: Cross-modal Alignment Similarity Test for Vision Language Models [1.679718220022688]
視覚言語モデル(VLM)は通常、視覚質問回答(VQA)タスクで評価される。
本稿では,モダリティ間の自己整合性を求めるために,CAST(Cross-modal Alignment similarity Test)を提案する。
論文 参考訳(メタデータ) (2024-09-17T09:14:45Z) - Revisiting Multi-Modal LLM Evaluation [29.094387692681337]
我々は,最近のMLLM(LLaVA 1.5, LLaVA-NeXT, BLIP2, InstructBLIP, GPT-4V, GPT-4o)を,以前のMLLMの弱点に対処するためのデータセット上で評価した。
我々のコードはMLLM評価のために広く使われているLAVISフレームワークに統合されており、将来のMLLMの迅速な評価を可能にしている。
論文 参考訳(メタデータ) (2024-08-09T20:55:46Z) - Uncertainty Estimation of Large Language Models in Medical Question Answering [60.72223137560633]
大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。
医学的問合せデータセットのモデルサイズが異なる人気不確実性推定(UE)手法をベンチマークする。
以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-07-11T16:51:33Z) - From Distributional to Overton Pluralism: Investigating Large Language Model Alignment [82.99849359892112]
適応後の応答多様性の低下を以前報告した再検査を行った。
分析の結果,応答の多様性の明らかな低下は,品質管理と情報集約によって大きく説明できることがわかった。
発見は、現在のアライメント技術はキャプチャーされるが、アシスタントライクなベースLLM動作の有用なサブセットを拡張するものではないことを示している。
論文 参考訳(メタデータ) (2024-06-25T16:32:33Z) - Visual Hallucinations of Multi-modal Large Language Models [37.5954827709964]
視覚幻覚(VH)とは、マルチモーダル LLM が視覚的質問応答における画像に関する誤った詳細を想像することを意味する。
既存の研究は、既存の画像データセットにのみVHインスタンスを見つける。
多様なVHインスタンスを生成するために,VHTestを提案する。
論文 参考訳(メタデータ) (2024-02-22T16:40:33Z) - RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from
Fine-grained Correctional Human Feedback [103.08766858584049]
RLHF-Vは、微粒な人間のフィードバックから行動アライメントを通じてMLLMの信頼性を高める。
自動評価と人的評価の両方で5つのベンチマーク実験を行った結果、RLHF-Vはより信頼性の高いMLLM動作を可能にすることがわかった。
論文 参考訳(メタデータ) (2023-12-01T11:36:08Z) - Detecting and Preventing Hallucinations in Large Vision Language Models [4.7264116948935975]
M-HalDetectは、詳細な画像記述のための最初のマルチモーダル幻覚検出データセットである。
InstructBLIPから細粒度マルチモーダル報酬モデルを訓練し,その有効性を評価する。
LLaVAとmPLUG-OWLの幻覚をそれぞれ15%と57%低減する。
論文 参考訳(メタデータ) (2023-08-11T21:35:20Z) - ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models [69.50316788263433]
本稿では,事前学習された視覚言語モデルの埋め込みに対する確率分布を推定する確率的アダプタProbVLMを提案する。
本稿では,検索タスクにおける不確実性埋め込みのキャリブレーションを定量化し,ProbVLMが他の手法よりも優れていることを示す。
本稿では,大規模な事前学習型潜伏拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-01T18:16:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。