論文の概要: Seeing Clearly, Answering Incorrectly: A Multimodal Robustness Benchmark for Evaluating MLLMs on Leading Questions
- arxiv url: http://arxiv.org/abs/2406.10638v1
- Date: Sat, 15 Jun 2024 13:58:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 23:23:59.293945
- Title: Seeing Clearly, Answering Incorrectly: A Multimodal Robustness Benchmark for Evaluating MLLMs on Leading Questions
- Title(参考訳): MLLMの評価のためのマルチモーダルロバストネスベンチマーク
- Authors: Yexin Liu, Zhengyang Liang, Yueze Wang, Muyang He, Jian Li, Bo Zhao,
- Abstract要約: ほとんどの評価ベンチマークは、誤った答えは視覚的内容の理解の欠如を示していると仮定している。
その結果,MLLMは視覚的内容が正しく理解されているにもかかわらず,誤解答をすることが多いことがわかった。
このことは、誤った答えは必ずしも理解の欠如を示唆するものではなく、むしろ主要な質問に対する堅牢性の欠如に起因する可能性があることを示唆している。
- 参考スコア(独自算出の注目度): 6.41245355860746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have exhibited impressive capabilities in visual understanding and reasoning, providing sightly reasonable answers, such as image descriptions. This has spurred extensive research on the evaluation of MLLMs. Most evaluation benchmarks assume that incorrect answers indicate a lack of understanding of the visual content. However, our findings reveal that, in many cases, MLLMs answer questions incorrectly despite correctly understanding the visual content. This suggests that incorrect answers do not necessarily imply a lack of comprehension but may instead result from lacking robustness to leading questions. To comprehensively measure MLLMs' understanding capability and robustness to leading questions, we introduce a MultiModal Robustness benchmark (MMR). MMR contains paired positive and negative questions across 12 categories, meticulously annotated by humans. We evaluate 18 leading MLLMs on the MMB benchmark, revealing that MLLMs suffer from fragility to leading questions despite understanding the visual content. To enhance MLLMs' understanding capability and robustness, we further present a training set with paired positive and negative visual question-answer samples. Experiments verify that MLLMs' robustness can be significantly enhanced by tuning on this new training set. The benchmark, training set, and code can be found at https://github.com/BAAI-DCAI/Multimodal-Robustness-Benchmark.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、視覚的理解と推論において印象的な能力を示し、画像記述のような目に見える合理的な答えを提供している。
これはMLLMの評価に関する広範な研究を刺激している。
ほとんどの評価ベンチマークは、誤った答えは視覚的内容の理解の欠如を示していると仮定している。
しかし, MLLMでは, 視覚内容が正しく理解されているにもかかわらず, 多くの場合, 誤った回答が得られていることが明らかとなった。
このことは、誤った答えは必ずしも理解の欠如を示唆するものではなく、むしろ主要な質問に対する堅牢性の欠如に起因する可能性があることを示唆している。
MLLMの理解能力を総合的に評価するために,MultiModal Robustnessベンチマーク(MMR)を導入する。
MMRには12のカテゴリーにまたがって正と負の2つの質問が含まれており、人間によって正確に注釈付けされている。
MMBベンチマークで18個のMLLMを評価したところ,MLLMは視覚的内容を理解しつつも,先進的な問題に対する脆弱さに悩まされていることがわかった。
MLLMの理解能力とロバスト性を高めるため,対の正と負の視覚的質問応答サンプルを用いたトレーニングセットを提案する。
実験により、MLLMsの堅牢性は、この新しいトレーニングセットをチューニングすることで著しく向上できることが確認された。
ベンチマーク、トレーニングセット、コードはhttps://github.com/BAAI-DCAI/Multimodal-Robustness-Benchmarkで見ることができる。
関連論文リスト
- Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。
この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。
提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文 参考訳(メタデータ) (2024-12-24T16:38:04Z) - Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [69.35226485836641]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。
DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。
DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文 参考訳(メタデータ) (2024-11-29T11:24:23Z) - Distill Visual Chart Reasoning Ability from LLMs to MLLMs [38.62832112530892]
マルチモーダル大言語モデル(MLLM)における複雑なチャートQ&Aタスクの解決には高度な視覚的推論能力が必要である
我々は,LLMからMLLMへの視覚的推論能力を蒸留するための費用効率,効率的,スケーラブルなデータ合成法であるCode-as-Intermediary Translation (CIT)を提案する。
我々は、テキストベースの合成技術を用いて、チャート作成コードを構築し、3kの推論集約チャートと20kのQ&Aペアを含むデータセットであるReachQAを作成した。
論文 参考訳(メタデータ) (2024-10-24T14:50:42Z) - Revisiting Multi-Modal LLM Evaluation [29.094387692681337]
我々は,最近のMLLM(LLaVA 1.5, LLaVA-NeXT, BLIP2, InstructBLIP, GPT-4V, GPT-4o)を,以前のMLLMの弱点に対処するためのデータセット上で評価した。
我々のコードはMLLM評価のために広く使われているLAVISフレームワークに統合されており、将来のMLLMの迅速な評価を可能にしている。
論文 参考訳(メタデータ) (2024-08-09T20:55:46Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。
VTWは、あるレイヤで視覚トークンを戦略的に取り除き、テキストトークンだけがその後のレイヤに関与できるようにする。
提案手法は,マルチモーダルタスクにおいて,性能を維持しながら計算オーバーヘッドを40%以上削減できる。
論文 参考訳(メタデータ) (2024-05-09T14:38:53Z) - The First to Know: How Token Distributions Reveal Hidden Knowledge in Large Vision-Language Models? [34.27319941609499]
本研究では線形プローブを用いてLVLMの出力層における隠れた知識を隠蔽する。
本報告では,最初のトークンのロジット分布は命令に応答するかどうかを決定するのに十分な情報を含んでいることを示す。
論文 参考訳(メタデータ) (2024-03-14T02:25:35Z) - Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。
QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。
我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-12-04T03:18:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。