論文の概要: MME-RealWorld: Could Your Multimodal LLM Challenge High-Resolution Real-World Scenarios that are Difficult for Humans?
- arxiv url: http://arxiv.org/abs/2408.13257v2
- Date: Wed, 11 Sep 2024 07:42:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 20:12:08.933916
- Title: MME-RealWorld: Could Your Multimodal LLM Challenge High-Resolution Real-World Scenarios that are Difficult for Humans?
- Title(参考訳): MME-RealWorld:あなたのマルチモーダルLLMは、人間にとって難しい高解像度リアルワールドシナリオに挑戦できるか?
- Authors: Yi-Fan Zhang, Huanyu Zhang, Haochen Tian, Chaoyou Fu, Shuangqing Zhang, Junfei Wu, Feng Li, Kun Wang, Qingsong Wen, Zhang Zhang, Liang Wang, Rong Jin, Tieniu Tan,
- Abstract要約: MME-RealWorldは、これまでで最大の手動アノテーション付きベンチマークであり、最も高解像度で、現実世界のアプリケーションに焦点を当てている。
私たちの結果は、最も先進的なモデルでさえベンチマークに苦戦していることを示しています。
- 参考スコア(独自算出の注目度): 64.00906432603817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Comprehensive evaluation of Multimodal Large Language Models (MLLMs) has recently garnered widespread attention in the research community. However, we observe that existing benchmarks present several common barriers that make it difficult to measure the significant challenges that models face in the real world, including: 1) small data scale leads to a large performance variance; 2) reliance on model-based annotations results in restricted data quality; 3) insufficient task difficulty, especially caused by the limited image resolution. To tackle these issues, we introduce MME-RealWorld. Specifically, we collect more than $300$K images from public datasets and the Internet, filtering $13,366$ high-quality images for annotation. This involves the efforts of professional $25$ annotators and $7$ experts in MLLMs, contributing to $29,429$ question-answer pairs that cover $43$ subtasks across $5$ real-world scenarios, extremely challenging even for humans. As far as we know, MME-RealWorld is the largest manually annotated benchmark to date, featuring the highest resolution and a targeted focus on real-world applications. We further conduct a thorough evaluation involving $28$ prominent MLLMs, such as GPT-4o, Gemini 1.5 Pro, and Claude 3.5 Sonnet. Our results show that even the most advanced models struggle with our benchmarks, where none of them reach $60\%$ accuracy. The challenges of perceiving high-resolution images and understanding complex real-world scenarios remain urgent issues to be addressed. The data and evaluation code are released at https://mme-realworld.github.io/ .
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の総合評価は,最近,研究コミュニティで広く注目を集めている。
しかし、既存のベンチマークにはいくつかの共通の障壁があり、これはモデルが現実世界で直面する重要な課題を測るのを困難にしている。
1)小さなデータスケールは、大きなパフォーマンスのばらつきにつながる。
2) モデルベースのアノテーションに依存すると、データ品質が制限される。
3) 課題難易度は, 特に画像解像度の制限により低下した。
これらの課題に対処するために,MME-RealWorldを紹介する。
具体的には、公開データセットとインターネットから300ドル以上の画像を収集し、アノテーションのために13,366ドルの高品質な画像をフィルタリングします。
これには、プロの25ドルのアノテータと7ドルのMLLMの専門家の努力が含まれており、現実世界のシナリオで43ドルのサブタスクをカバーする質問応答ペアとして29,429ドルを支払っている。
われわれが知る限り、MME-RealWorldは、これまでで最大の手動アノテーション付きベンチマークであり、最も高解像度で、現実世界のアプリケーションにフォーカスしている。
さらに, GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnetなどの著名なMLLMを28ドルで評価した。
その結果、最も先進的なモデルでさえベンチマークに苦戦していることがわかった。
高解像度画像を認識し、複雑な現実世界のシナリオを理解するという課題は、解決すべき緊急の問題のままである。
データと評価コードはhttps://mme-realworld.github.io/で公開されている。
関連論文リスト
- CLEAR: Character Unlearning in Textual and Visual Modalities [7.618793381903125]
マルチモーダル・アンラーニング(MMU)手法を評価するためのベンチマークであるCLEARを紹介する。
CLEARには200人の架空の人物と3700枚の画像が関連付けられている。
10 MU 法を評価し,それらを MMU に適用し,マルチモーダルな忘れ方に特有な新たな課題を浮き彫りにする。
論文 参考訳(メタデータ) (2024-10-23T17:30:50Z) - R-Bench: Are your Large Multimodal Model Robust to Real-world Corruptions? [86.94616033250068]
R-Benchは、LMMs*の**実世界のロバストネスに焦点を当てたベンチマークである。
LMMは元の参照画像を正しく扱えるが、歪んだ画像に直面すると、その性能は安定しない。
我々は、R-BenchがLMMの堅牢性を改善し、*実験シミュレーションから*実世界のアプリケーションへ拡張することを願っている。
論文 参考訳(メタデータ) (2024-10-07T20:12:08Z) - Grounding Large Language Models In Embodied Environment With Imperfect World Models [8.182450558534198]
大きな言語モデル(LLM)は、基本的な物理的推論やロボティクスタスクの実行でしばしば混乱する。
We propose a Grounding Large Language model with Imperfect world MOdel (GLIMO)。
GLIMOはLLMエージェントベースのデータジェネレータを組み込んで、高品質で多様な命令データセットを自動生成する。
論文 参考訳(メタデータ) (2024-10-03T17:55:09Z) - Easy2Hard-Bench: Standardized Difficulty Labels for Profiling LLM Performance and Generalization [126.27645170941268]
さまざまなドメインにまたがる6つのベンチマークデータセットのコレクションであるEasy2Hard-Benchを紹介します。
これらのデータセット内の各問題は、数値的な難易度スコアで注釈付けされる。
様々な難易度にまたがる性能と一般化能力を総合的に分析する。
論文 参考訳(メタデータ) (2024-09-27T03:49:56Z) - Divide, Conquer and Combine: A Training-Free Framework for High-Resolution Image Perception in Multimodal Large Language Models [57.280853324896306]
マルチモーダル大言語モデル(MLLM)は、高解像度(HR)画像の複雑な詳細を認識し解釈するのに苦労する。
HR-Benchは、4K&8K画像上でMLLMの性能を厳格に評価する最初の意図的に設計されたベンチマークである。
HR画像のMLLM知覚を高めるための新しいトレーニングフリーフレームワークであるDivide, Conquer and Combine (DC$2$)を提案する。
論文 参考訳(メタデータ) (2024-08-28T06:09:02Z) - MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos [155.52885252910693]
MMWorldは,複数分野のマルチモードビデオ理解のための新しいベンチマークである。
MMWorldは、ビデオ全体に関する質問を伴うMLLMを評価する人間アノテーション付きデータセットと、知覚の単一モード内でMLLMを分析する合成データセットで構成されている。
この評価には2つのプロプライエタリなMLLMと10のオープンソースMLLMが含まれており、MMWorldと競合している。
論文 参考訳(メタデータ) (2024-06-12T16:54:54Z) - WorldQA: Multimodal World Knowledge in Videos through Long-Chain Reasoning [49.72868038180909]
マルチモーダル世界モデルの境界を押し上げるために設計されたビデオデータセットであるWorldQAを紹介する。
質問の定式化に不可欠な5つの世界知識を同定する。
我々は、専門家の知識をコヒーレントな推論チェーンに合成するためのエージェントであるWorldRetrieverを紹介する。
論文 参考訳(メタデータ) (2024-05-06T08:42:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。