論文の概要: MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding
- arxiv url: http://arxiv.org/abs/2406.09411v2
- Date: Tue, 2 Jul 2024 01:56:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 06:49:41.253480
- Title: MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding
- Title(参考訳): MuirBench:ロバストなマルチイメージ理解のための総合ベンチマーク
- Authors: Fei Wang, Xingyu Fu, James Y. Huang, Zekun Li, Qin Liu, Xiaogeng Liu, Mingyu Derek Ma, Nan Xu, Wenxuan Zhou, Kai Zhang, Tianyi Lorena Yan, Wenjie Jacky Mo, Hsiang-Hui Liu, Pan Lu, Chunyuan Li, Chaowei Xiao, Kai-Wei Chang, Dan Roth, Sheng Zhang, Hoifung Poon, Muhao Chen,
- Abstract要約: マルチモーダルLLMの堅牢なマルチイメージ理解機能に着目したベンチマークであるMuirBenchを紹介する。
MuirBenchは、12の多様なマルチイメージタスク(例えば、シーン理解、順序付け)で構成されており、10のカテゴリのマルチイメージ関係を含んでいる。
GPT-4oやGemini Proのような最高のパフォーマンスモデルでさえ、ムアベンチを解くことは困難であり、精度は68.0%、49.3%である。
- 参考スコア(独自算出の注目度): 150.28164854480912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce MuirBench, a comprehensive benchmark that focuses on robust multi-image understanding capabilities of multimodal LLMs. MuirBench consists of 12 diverse multi-image tasks (e.g., scene understanding, ordering) that involve 10 categories of multi-image relations (e.g., multiview, temporal relations). Comprising 11,264 images and 2,600 multiple-choice questions, MuirBench is created in a pairwise manner, where each standard instance is paired with an unanswerable variant that has minimal semantic differences, in order for a reliable assessment. Evaluated upon 20 recent multi-modal LLMs, our results reveal that even the best-performing models like GPT-4o and Gemini Pro find it challenging to solve MuirBench, achieving 68.0% and 49.3% in accuracy. Open-source multimodal LLMs trained on single images can hardly generalize to multi-image questions, hovering below 33.3% in accuracy. These results highlight the importance of MuirBench in encouraging the community to develop multimodal LLMs that can look beyond a single image, suggesting potential pathways for future improvements.
- Abstract(参考訳): マルチモーダルLLMの堅牢なマルチイメージ理解機能に焦点を当てた総合ベンチマークであるMuirBenchを紹介する。
MuirBenchは、12の多様なマルチイメージタスク(例:シーン理解、順序付け)で構成され、それは10のカテゴリのマルチイメージ関係(例:マルチビュー、時間的関係)を含んでいる。
11,264のイメージと2,600の多重選択質問を含むMuirBenchは、ペア方式で作成される。
その結果, GPT-4o や Gemini Pro などの高性能モデルでも MuirBench の精度は68.0% と 49.3% であることがわかった。
シングルイメージで訓練されたオープンソースのマルチモーダルLLMは、33.3%未満の精度で、マルチイメージの質問にほとんど一般化できない。
これらの結果は、コミュニティが単一のイメージを超えて見えるマルチモーダル LLM を開発することを奨励する上で、MuirBench の重要性を強調し、今後の改善の道筋を示唆している。
関連論文リスト
- MIBench: Evaluating Multimodal Large Language Models over Multiple Images [70.44423964171088]
マルチイメージシナリオにおけるMLLMの微粒化能力を包括的に評価する新しいベンチマークMIBenchを提案する。
MIBenchは、マルチイメージ・インストラクション(MII)、マルチモーダル・ナレッジ・シーキング(MKS)、マルチモーダル・イン・コンテクスト・ラーニング(MIC)の3つのシナリオに分類し、13のタスクを合計13Kの注釈付きサンプルで構成する。
その結果、現在のモデルでは単一画像のタスクが優れているが、複数画像の入力に直面すると大きな欠点が現れることがわかった。
論文 参考訳(メタデータ) (2024-07-21T21:22:58Z) - LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models [70.2997884478129]
LMMにおけるマルチイメージ、マルチフレーム(ビデオ)、マルチビュー(3D)、マルチパッチ(シングルイメージ)シナリオを同時に扱うLLaVA-NeXT-Interleaveを紹介する。
また,LMMのマルチイメージ性能を総合的に評価するために,LLaVA-Interleave Benchをキュレートする。
論文 参考訳(メタデータ) (2024-07-10T17:59:43Z) - MMT-Bench: A Comprehensive Multimodal Benchmark for Evaluating Large Vision-Language Models Towards Multitask AGI [71.53579367538725]
MMT-Benchは、大規模なマルチモーダルタスクにわたるLVLM(Large Vision-Language Models)を評価するために設計されたベンチマークである。
MMT-Benchは、様々なマルチモーダルシナリオから、巧妙にキュレートされたマルチチョイスの視覚的質問を31,325ドルで提供する。
論文 参考訳(メタデータ) (2024-04-24T17:37:05Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - Muffin or Chihuahua? Challenging Multimodal Large Language Models with Multipanel VQA [27.814920184313962]
6,600個の質問,回答,マルチパネル画像からなる新しいベンチマークであるMultipanel Visual Question Answering(MultipanelVQA)を紹介する。
評価の結果、MultipanelVQAベンチマークの質問は、最先端のMLLM(Multimodal Large Language Models)テストに重大な課題をもたらすことが示された。
論文 参考訳(メタデータ) (2024-01-29T02:43:40Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。