論文の概要: MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding
- arxiv url: http://arxiv.org/abs/2406.09411v2
- Date: Tue, 2 Jul 2024 01:56:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 06:49:41.253480
- Title: MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding
- Title(参考訳): MuirBench:ロバストなマルチイメージ理解のための総合ベンチマーク
- Authors: Fei Wang, Xingyu Fu, James Y. Huang, Zekun Li, Qin Liu, Xiaogeng Liu, Mingyu Derek Ma, Nan Xu, Wenxuan Zhou, Kai Zhang, Tianyi Lorena Yan, Wenjie Jacky Mo, Hsiang-Hui Liu, Pan Lu, Chunyuan Li, Chaowei Xiao, Kai-Wei Chang, Dan Roth, Sheng Zhang, Hoifung Poon, Muhao Chen,
- Abstract要約: マルチモーダルLLMの堅牢なマルチイメージ理解機能に着目したベンチマークであるMuirBenchを紹介する。
GPT-4oやGemini Proのような最高のパフォーマンスモデルでさえ、ムアベンチを解くことは困難であり、精度は68.0%、49.3%である。
- 参考スコア(独自算出の注目度): 150.28164854480912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce MuirBench, a comprehensive benchmark that focuses on robust multi-image understanding capabilities of multimodal LLMs. MuirBench consists of 12 diverse multi-image tasks (e.g., scene understanding, ordering) that involve 10 categories of multi-image relations (e.g., multiview, temporal relations). Comprising 11,264 images and 2,600 multiple-choice questions, MuirBench is created in a pairwise manner, where each standard instance is paired with an unanswerable variant that has minimal semantic differences, in order for a reliable assessment. Evaluated upon 20 recent multi-modal LLMs, our results reveal that even the best-performing models like GPT-4o and Gemini Pro find it challenging to solve MuirBench, achieving 68.0% and 49.3% in accuracy. Open-source multimodal LLMs trained on single images can hardly generalize to multi-image questions, hovering below 33.3% in accuracy. These results highlight the importance of MuirBench in encouraging the community to develop multimodal LLMs that can look beyond a single image, suggesting potential pathways for future improvements.
- Abstract(参考訳): マルチモーダルLLMの堅牢なマルチイメージ理解機能に焦点を当てた総合ベンチマークであるMuirBenchを紹介する。
その結果, GPT-4o や Gemini Pro などの高性能モデルでも MuirBench の精度は68.0% と 49.3% であることがわかった。
これらの結果は、コミュニティが単一のイメージを超えて見えるマルチモーダル LLM を開発することを奨励する上で、MuirBench の重要性を強調し、今後の改善の道筋を示唆している。
- MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models [76.1999277491816]
MMIU(Multimodal Multi-image Understanding)は、LVLM(Large Vision-Language Models)を評価するための総合的な評価スイートである。
論文 参考訳(メタデータ) (2024-08-05T17:56:41Z) - MIBench: Evaluating Multimodal Large Language Models over Multiple Images [70.44423964171088]
論文 参考訳(メタデータ) (2024-07-21T21:22:58Z) - LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models [70.2997884478129]
また,LMMのマルチイメージ性能を総合的に評価するために,LLaVA-Interleave Benchをキュレートする。
論文 参考訳(メタデータ) (2024-07-10T17:59:43Z) - MMT-Bench: A Comprehensive Multimodal Benchmark for Evaluating Large Vision-Language Models Towards Multitask AGI [71.53579367538725]
MMT-Benchは、大規模なマルチモーダルタスクにわたるLVLM(Large Vision-Language Models)を評価するために設計されたベンチマークである。
論文 参考訳(メタデータ) (2024-04-24T17:37:05Z) - Muffin or Chihuahua? Challenging Multimodal Large Language Models with Multipanel VQA [27.814920184313962]
6,600個の質問,回答,マルチパネル画像からなる新しいベンチマークであるMultipanel Visual Question Answering(MultipanelVQA)を紹介する。
評価の結果、MultipanelVQAベンチマークの質問は、最先端のMLLM(Multimodal Large Language Models)テストに重大な課題をもたらすことが示された。
論文 参考訳(メタデータ) (2024-01-29T02:43:40Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z)