論文の概要: The Instinctive Bias: Spurious Images lead to Hallucination in MLLMs
- arxiv url: http://arxiv.org/abs/2402.03757v1
- Date: Tue, 6 Feb 2024 06:48:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 16:06:53.015749
- Title: The Instinctive Bias: Spurious Images lead to Hallucination in MLLMs
- Title(参考訳): 直感的バイアス:Spurious ImagesはMLLMの幻覚に繋がる
- Authors: Tianyang Han, Qing Lian, Rui Pan, Renjie Pi, Jipeng Zhang, Shizhe
Diao, Yong Lin, Tong Zhang
- Abstract要約: MLLMは、非常に関連性が高いが、応答に矛盾する画像で構成されている。
この効果を定量的に評価するために,スプリアス画像の幻覚レベルを評価する最初のベンチマークである相関QAを提案する。
我々は9つの主流MLLMについて徹底的な分析を行い、これらの本能バイアスが様々な程度に普遍的に悩まされていることを指摘した。
- 参考スコア(独自算出の注目度): 36.42188183017291
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have recently experienced remarkable progress,
where the advent of multi-modal large language models (MLLMs) has endowed LLMs
with visual capabilities, leading to impressive performances in various
multi-modal tasks. However, those powerful MLLMs such as GPT-4V still fail
spectacularly when presented with certain image and text inputs. In this paper,
we identify a typical class of inputs that baffles MLLMs, which consist of
images that are highly relevant but inconsistent with answers, causing MLLMs to
suffer from hallucination. To quantify the effect, we propose CorrelationQA,
the first benchmark that assesses the hallucination level given spurious
images. This benchmark contains 7,308 text-image pairs across 13 categories.
Based on the proposed CorrelationQA, we conduct a thorough analysis on 9
mainstream MLLMs, illustrating that they universally suffer from this
instinctive bias to varying degrees. We hope that our curated benchmark and
evaluation results aid in better assessments of the MLLMs' robustness in the
presence of misleading images. The resource is available in
https://github.com/MasaiahHan/CorrelationQA.
- Abstract(参考訳): 大規模言語モデル (LLM) は近年顕著な進歩を遂げており、マルチモーダルな大規模言語モデル (MLLM) の出現により、視覚能力を備えたLLMが実現され、様々なマルチモーダルタスクにおける印象的なパフォーマンスがもたらされた。
しかし、GPT-4Vのような強力なMLLMは、特定の画像やテキスト入力を提示しても驚くほど失敗する。
本稿では,MLLMに非常に関連性があるが応答に相容れない画像からなるMLLMをバッフルする典型的な入力のクラスを特定し,MLLMが幻覚に悩まされる原因となる。
この効果を定量化するために,スプリアスイメージの幻覚レベルを評価する最初のベンチマークであるcorrelationqaを提案する。
このベンチマークには、13のカテゴリにわたる7,308のテキストイメージペアが含まれている。
提案した相関QAに基づいて,9つの主流MLLMを網羅的に分析し,この本能バイアスを様々な程度に普遍的に抱えることを示した。
得られたベンチマークと評価結果が,誤解を招く画像の存在下でのMLLMの頑健さのより良い評価に役立つことを期待する。
リソースはhttps://github.com/MasaiahHan/CorrelationQA.comで入手できる。
関連論文リスト
- MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation [50.73561815838431]
MLLM(Multimodal Large Language Models)はしばしば幻覚現象を示す。
MLLM(DeCo)の新しい動的補正復号法を提案する。
広範に使用されているベンチマークでDeCoを評価し、ベースラインと比較して幻覚率を大きなマージンで削減できることを実証した。
論文 参考訳(メタデータ) (2024-10-15T16:57:44Z) - LIME: Less Is More for MLLM Evaluation [36.29820380945517]
半自動パイプラインによるベンチマークであるLIME(Less Is More for MLLM Evaluation)を提案する。
このパイプラインは、非形式的なサンプルをフィルタリングし、イメージベースの理解を必要とするタスクに集中することで、回答のリークを取り除く。
実験の結果,LIMEはサンプル数を76%減らし,評価時間を77%減らした。
論文 参考訳(メタデータ) (2024-09-10T20:19:14Z) - MIBench: Evaluating Multimodal Large Language Models over Multiple Images [70.44423964171088]
マルチイメージシナリオにおけるMLLMの微粒化能力を包括的に評価する新しいベンチマークMIBenchを提案する。
具体的には、MIBenchはマルチモーダル・インコンテクスト・ラーニング(MIC)とマルチモーダル・インコンテクスト・ラーニング(MIC)の3つのシナリオに分類する。
その結果、現在のモデルでは単一画像のタスクが優れているが、複数画像の入力に直面すると大きな欠点が現れることがわかった。
論文 参考訳(メタデータ) (2024-07-21T21:22:58Z) - Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。
我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。
複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文 参考訳(メタデータ) (2024-02-11T06:44:11Z) - Mementos: A Comprehensive Benchmark for Multimodal Large Language Model
Reasoning over Image Sequences [80.54979242912944]
本稿では,MLLMの逐次画像推論能力を評価するためのベンチマークであるMementosを紹介する。
MLLMは与えられた画像列の動的情報を正確に記述するのに苦労しており、しばしば幻覚/誤表現につながる。
論文 参考訳(メタデータ) (2024-01-19T07:10:13Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - Investigating the Catastrophic Forgetting in Multimodal Large Language
Models [43.89009178021342]
MLLMにおける破滅的忘れの評価のためのMulTimodalityを評価するEMTについて紹介する。
ほぼ全ての評価されたMLLMは、標準的な画像分類タスクにおけるビジョンエンコーダと同じパフォーマンスレベルを維持することができない。
微調整が進むにつれて、MLLMは幻覚し始め、一般化可能性が著しく失われる。
論文 参考訳(メタデータ) (2023-09-19T04:51:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。