論文の概要: MME-RealWorld: Could Your Multimodal LLM Challenge High-Resolution Real-World Scenarios that are Difficult for Humans?
- arxiv url: http://arxiv.org/abs/2408.13257v1
- Date: Fri, 23 Aug 2024 17:59:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-26 14:11:01.003617
- Title: MME-RealWorld: Could Your Multimodal LLM Challenge High-Resolution Real-World Scenarios that are Difficult for Humans?
- Title(参考訳): MME-RealWorld:あなたのマルチモーダルLLMは、人間にとって難しい高解像度リアルワールドシナリオに挑戦できるか?
- Authors: Yi-Fan Zhang, Huanyu Zhang, Haochen Tian, Chaoyou Fu, Shuangqing Zhang, Junfei Wu, Feng Li, Kun Wang, Qingsong Wen, Zhang Zhang, Liang Wang, Rong Jin, Tieniu Tan,
- Abstract要約: MME-RealWorldは、これまでで最大の手動アノテーション付きベンチマークであり、最も高解像度で、現実世界のアプリケーションに焦点を当てている。
私たちの結果は、最も先進的なモデルでさえベンチマークに苦戦していることを示しています。
- 参考スコア(独自算出の注目度): 64.00906432603817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Comprehensive evaluation of Multimodal Large Language Models (MLLMs) has recently garnered widespread attention in the research community. However, we observe that existing benchmarks present several common barriers that make it difficult to measure the significant challenges that models face in the real world, including: 1) small data scale leads to a large performance variance; 2) reliance on model-based annotations results in restricted data quality; 3) insufficient task difficulty, especially caused by the limited image resolution. To tackle these issues, we introduce MME-RealWorld. Specifically, we collect more than $300$K images from public datasets and the Internet, filtering $13,366$ high-quality images for annotation. This involves the efforts of professional $25$ annotators and $7$ experts in MLLMs, contributing to $29,429$ question-answer pairs that cover $43$ subtasks across $5$ real-world scenarios, extremely challenging even for humans. As far as we know, MME-RealWorld is the largest manually annotated benchmark to date, featuring the highest resolution and a targeted focus on real-world applications. We further conduct a thorough evaluation involving $28$ prominent MLLMs, such as GPT-4o, Gemini 1.5 Pro, and Claude 3.5 Sonnet. Our results show that even the most advanced models struggle with our benchmarks, where none of them reach $60\%$ accuracy. The challenges of perceiving high-resolution images and understanding complex real-world scenarios remain urgent issues to be addressed. The data and evaluation code are released at https://mme-realworld.github.io/ .
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の総合評価は,最近,研究コミュニティで広く注目を集めている。
しかし、既存のベンチマークにはいくつかの共通の障壁があり、これはモデルが現実世界で直面する重要な課題を測るのを困難にしている。
1)小さなデータスケールは、大きなパフォーマンスのばらつきにつながる。
2) モデルベースのアノテーションに依存すると、データ品質が制限される。
3) 課題難易度は, 特に画像解像度の制限により低下した。
これらの課題に対処するために,MME-RealWorldを紹介する。
具体的には、公開データセットとインターネットから300ドル以上の画像を収集し、アノテーションのために13,366ドルの高品質な画像をフィルタリングします。
これには、プロの25ドルのアノテータと7ドルのMLLMの専門家の努力が含まれており、現実世界のシナリオで43ドルのサブタスクをカバーする質問応答ペアとして29,429ドルを支払っている。
われわれが知る限り、MME-RealWorldは、これまでで最大の手動アノテーション付きベンチマークであり、最も高解像度で、現実世界のアプリケーションにフォーカスしている。
さらに, GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnetなどの著名なMLLMを28ドルで評価した。
その結果、最も先進的なモデルでさえベンチマークに苦戦していることがわかった。
高解像度画像を認識し、複雑な現実世界のシナリオを理解するという課題は、解決すべき緊急の問題のままである。
データと評価コードはhttps://mme-realworld.github.io/で公開されている。
関連論文リスト
- Visual Haystacks: Answering Harder Questions About Sets of Images [63.296342841358815]
本稿では,Multi-Image Visual Question Answering(MIQA)の課題について検討する。
大量の画像と自然言語クエリが与えられたら、そのタスクは関連性があり、接地された応答を生成することだ。
大規模マルチモーダルモデル(LMM)に適した新しい検索/QAフレームワークであるMIRAGEを紹介する。
論文 参考訳(メタデータ) (2024-07-18T17:59:30Z) - MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos [155.52885252910693]
MMWorldは,複数分野のマルチモードビデオ理解のための新しいベンチマークである。
MMWorldは、ビデオ全体に関する質問を伴うMLLMを評価する人間アノテーション付きデータセットと、知覚の単一モード内でMLLMを分析する合成データセットで構成されている。
この評価には2つのプロプライエタリなMLLMと10のオープンソースMLLMが含まれており、MMWorldと競合している。
論文 参考訳(メタデータ) (2024-06-12T16:54:54Z) - WorldQA: Multimodal World Knowledge in Videos through Long-Chain Reasoning [49.72868038180909]
マルチモーダル世界モデルの境界を押し上げるために設計されたビデオデータセットであるWorldQAを紹介する。
質問の定式化に不可欠な5つの世界知識を同定する。
我々は、専門家の知識をコヒーレントな推論チェーンに合成するためのエージェントであるWorldRetrieverを紹介する。
論文 参考訳(メタデータ) (2024-05-06T08:42:34Z) - DMoERM: Recipes of Mixture-of-Experts for Effective Reward Modeling [0.0]
我々は、Mixture-of-Experts(MoE)のアイデアを、報酬モデル(RM)トレーニングの分野に導入する。
特定のタスクを複数の機能ディメンションに分解し、それぞれにLoRA専門家を個別に微調整する。
我々のモデルは、人間の嗜好との整合性に優れ、先進的な生成アプローチを実現する。
論文 参考訳(メタデータ) (2024-03-02T12:31:22Z) - AIM 2020 Challenge on Real Image Super-Resolution: Methods and Results [246.25405948014736]
本稿では,ECCV 2020と共同で開催されているAIMワークショップの一環として,実像超解法(SR)課題を紹介する。
この課題には、入力イメージを$times$2、$times$3、$times$4のスケーリングファクタで超解答する3つのトラックが含まれる。
目標は、SRタスクの現実的な画像劣化により多くの注意を惹きつけることだ。
論文 参考訳(メタデータ) (2020-09-25T07:42:55Z) - NTIRE 2020 Challenge on Real-World Image Super-Resolution: Methods and
Results [148.54397669654958]
本稿は,NTIRE 2020における現実世界の超解像に関する課題を概観する。
この課題は、真の高解像度画像と低解像度画像のペアが利用できない現実世界の設定に対処する。
合計22チームが最終テストフェーズに出場し、この問題に対する新しい革新的な解決策を実証した。
論文 参考訳(メタデータ) (2020-05-05T08:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。