Fugu-MT 論文翻訳(概要): MME-RealWorld: Could Your Multimodal LLM Challenge High-Resolution Real-World Scenarios that are Difficult for Humans?

論文の概要: MME-RealWorld: Could Your Multimodal LLM Challenge High-Resolution Real-World Scenarios that are Difficult for Humans?

arxiv url: http://arxiv.org/abs/2408.13257v2
Date: Wed, 11 Sep 2024 07:42:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-12 20:12:08.933916
Title: MME-RealWorld: Could Your Multimodal LLM Challenge High-Resolution Real-World Scenarios that are Difficult for Humans?
Title（参考訳）: MME-RealWorld:あなたのマルチモーダルLLMは、人間にとって難しい高解像度リアルワールドシナリオに挑戦できるか?
Authors: Yi-Fan Zhang, Huanyu Zhang, Haochen Tian, Chaoyou Fu, Shuangqing Zhang, Junfei Wu, Feng Li, Kun Wang, Qingsong Wen, Zhang Zhang, Liang Wang, Rong Jin, Tieniu Tan,
Abstract要約: MME-RealWorldは、これまでで最大の手動アノテーション付きベンチマークであり、最も高解像度で、現実世界のアプリケーションに焦点を当てている。私たちの結果は、最も先進的なモデルでさえベンチマークに苦戦していることを示しています。
参考スコア（独自算出の注目度）: 64.00906432603817
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Comprehensive evaluation of Multimodal Large Language Models (MLLMs) has recently garnered widespread attention in the research community. However, we observe that existing benchmarks present several common barriers that make it difficult to measure the significant challenges that models face in the real world, including: 1) small data scale leads to a large performance variance; 2) reliance on model-based annotations results in restricted data quality; 3) insufficient task difficulty, especially caused by the limited image resolution. To tackle these issues, we introduce MME-RealWorld. Specifically, we collect more than $300$K images from public datasets and the Internet, filtering $13,366$ high-quality images for annotation. This involves the efforts of professional $25$ annotators and $7$ experts in MLLMs, contributing to $29,429$ question-answer pairs that cover $43$ subtasks across $5$ real-world scenarios, extremely challenging even for humans. As far as we know, MME-RealWorld is the largest manually annotated benchmark to date, featuring the highest resolution and a targeted focus on real-world applications. We further conduct a thorough evaluation involving $28$ prominent MLLMs, such as GPT-4o, Gemini 1.5 Pro, and Claude 3.5 Sonnet. Our results show that even the most advanced models struggle with our benchmarks, where none of them reach $60\%$ accuracy. The challenges of perceiving high-resolution images and understanding complex real-world scenarios remain urgent issues to be addressed. The data and evaluation code are released at https://mme-realworld.github.io/ .
Abstract（参考訳）: MLLM(Multimodal Large Language Models)の総合評価は,最近,研究コミュニティで広く注目を集めている。しかし、既存のベンチマークにはいくつかの共通の障壁があり、これはモデルが現実世界で直面する重要な課題を測るのを困難にしている。 1)小さなデータスケールは、大きなパフォーマンスのばらつきにつながる。 2) モデルベースのアノテーションに依存すると、データ品質が制限される。 3) 課題難易度は, 特に画像解像度の制限により低下した。これらの課題に対処するために,MME-RealWorldを紹介する。具体的には、公開データセットとインターネットから300ドル以上の画像を収集し、アノテーションのために13,366ドルの高品質な画像をフィルタリングします。これには、プロの25ドルのアノテータと7ドルのMLLMの専門家の努力が含まれており、現実世界のシナリオで43ドルのサブタスクをカバーする質問応答ペアとして29,429ドルを支払っている。われわれが知る限り、MME-RealWorldは、これまでで最大の手動アノテーション付きベンチマークであり、最も高解像度で、現実世界のアプリケーションにフォーカスしている。さらに, GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnetなどの著名なMLLMを28ドルで評価した。その結果、最も先進的なモデルでさえベンチマークに苦戦していることがわかった。高解像度画像を認識し、複雑な現実世界のシナリオを理解するという課題は、解決すべき緊急の問題のままである。データと評価コードはhttps://mme-realworld.github.io/で公開されている。

関連論文リスト

MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence [50.38961770108891]
MMSI-Benchは、マルチイメージ空間インテリジェンスに特化したVQAベンチマークである。我々は、大規模な実験を行い、34のオープンソースおよびプロプライエタリMLLMを徹底的に評価する。最も強力なオープンソースモデルはおよそ30%の精度に達し、OpenAIのo3推論モデルは40%に達し、人間は97%である。
論文参考訳（メタデータ） (2025-05-29T17:59:52Z)
Do You See Me : A Multidimensional Benchmark for Evaluating Visual Perception in Multimodal LLMs [9.951669153984708]
Do You See Me"は,1,758のイメージと2,612の質問を備えた,スケーラブルなベンチマークである。人間は96.49%の精度を達成し、トップMLLMは50%以下である。これは、真に堅牢な視覚知覚を持つMLLMに対して、緊急の必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2025-05-28T13:31:32Z)
LENS: Multi-level Evaluation of Multimodal Reasoning with Large Language Models [59.0256377330646]
Lensは3.4Kの現代画像と8つのタスクと12の日次シナリオをカバーする60K以上の人間による質問のベンチマークである。このデータセットは本質的に、基本的な知覚から構成的推論に至るまで、画像不変のプロンプトを処理するためのMLLMの評価をサポートする。我々は,Qwen2.5-VL-72B,InternVL3-78B,GPT-4oおよび2つの推論モデルQVQ-72B-previewとKim-VLなどの15以上のフロンティアMLLMを評価する。
論文参考訳（メタデータ） (2025-05-21T15:06:59Z)
Can AI Freelancers Compete? Benchmarking Earnings, Reliability, and Task Success at Scale [0.0]
我々は、Kaggleの投稿から生成される合成タスクを用いて、ベンチマークを構築する。各タスクには、構造化された入力テストケースと推定価格が伴う。本ベンチマークでは,現代LLM (3.5 Claude Haiku, GPT-4o-mini, Qwen 2.5, Mistral) の評価を行った。
論文参考訳（メタデータ） (2025-05-16T22:42:04Z)
GeoBenchX: Benchmarking LLMs for Multistep Geospatial Tasks [0.0]
Sonnet 3.5 と GPT-4o は最高性能を達成し、Claude モデルは解決可能なタスクに優れていた。一般的な誤りには、幾何学的関係の誤解、時代遅れの知識への依存、非効率的なデータ操作などがある。
論文参考訳（メタデータ） (2025-03-23T16:20:14Z)
VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文参考訳（メタデータ） (2025-02-25T23:36:19Z)
Evaluating the Systematic Reasoning Abilities of Large Language Models through Graph Coloring [0.0]
本研究では,LLMの計算能力を評価するためのグラフカラー化手法について検討する。我々は、$k$-coloringのデータセット上で、Claude 3.5 Sonnet、Llama 3.1 405B、Gemini 1.5 Pro、GPT-4o、o1-mini、DeepSeek-R1をテストする。
論文参考訳（メタデータ） (2025-02-10T22:27:02Z)
FCMR: Robust Evaluation of Financial Cross-Modal Multi-Hop Reasoning [5.65203350495478]
MLLMの推論能力を評価するためのベンチマークであるFCMR(Financial Cross-Modal Multi-Hop Reasoning)を提案する。 FCMRは3つの難易度(易度、中度、硬度)に分類される。この新しいベンチマークの実験では、最先端のMLLMでさえ苦戦しており、最高の性能のモデルは最も難しいレベルでは30.4%の精度しか達成していない。
論文参考訳（メタデータ） (2024-12-17T05:50:55Z)
CLEAR: Character Unlearning in Textual and Visual Modalities [7.618793381903125]
マルチモーダル・アンラーニング(MMU)手法を評価するためのベンチマークであるCLEARを紹介する。 CLEARには200人の架空の人物と3700枚の画像が関連付けられている。 10 MU 法を評価し,それらを MMU に適用し,マルチモーダルな忘れ方に特有な新たな課題を浮き彫りにする。
論文参考訳（メタデータ） (2024-10-23T17:30:50Z)
R-Bench: Are your Large Multimodal Model Robust to Real-world Corruptions? [86.94616033250068]
R-Benchは、LMMs*の**実世界のロバストネスに焦点を当てたベンチマークである。 LMMは元の参照画像を正しく扱えるが、歪んだ画像に直面すると、その性能は安定しない。我々は、R-BenchがLMMの堅牢性を改善し、*実験シミュレーションから*実世界のアプリケーションへ拡張することを願っている。
論文参考訳（メタデータ） (2024-10-07T20:12:08Z)
Grounding Large Language Models In Embodied Environment With Imperfect World Models [8.182450558534198]
大きな言語モデル(LLM)は、基本的な物理的推論やロボティクスタスクの実行でしばしば混乱する。 We propose a Grounding Large Language model with Imperfect world MOdel (GLIMO)。 GLIMOはLLMエージェントベースのデータジェネレータを組み込んで、高品質で多様な命令データセットを自動生成する。
論文参考訳（メタデータ） (2024-10-03T17:55:09Z)
Easy2Hard-Bench: Standardized Difficulty Labels for Profiling LLM Performance and Generalization [126.27645170941268]
さまざまなドメインにまたがる6つのベンチマークデータセットのコレクションであるEasy2Hard-Benchを紹介します。これらのデータセット内の各問題は、数値的な難易度スコアで注釈付けされる。様々な難易度にまたがる性能と一般化能力を総合的に分析する。
論文参考訳（メタデータ） (2024-09-27T03:49:56Z)
Divide, Conquer and Combine: A Training-Free Framework for High-Resolution Image Perception in Multimodal Large Language Models [57.280853324896306]
マルチモーダル大言語モデル(MLLM)は、高解像度(HR)画像の複雑な詳細を認識し解釈するのに苦労する。 HR-Benchは、4K&8K画像上でMLLMの性能を厳格に評価する最初の意図的に設計されたベンチマークである。 HR画像のMLLM知覚を高めるための新しいトレーニングフリーフレームワークであるDivide, Conquer and Combine (DC$2$)を提案する。
論文参考訳（メタデータ） (2024-08-28T06:09:02Z)
MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos [155.52885252910693]
MMWorldは,複数分野のマルチモードビデオ理解のための新しいベンチマークである。 MMWorldは、ビデオ全体に関する質問を伴うMLLMを評価する人間アノテーション付きデータセットと、知覚の単一モード内でMLLMを分析する合成データセットで構成されている。この評価には2つのプロプライエタリなMLLMと10のオープンソースMLLMが含まれており、MMWorldと競合している。
論文参考訳（メタデータ） (2024-06-12T16:54:54Z)
WorldQA: Multimodal World Knowledge in Videos through Long-Chain Reasoning [49.72868038180909]
マルチモーダル世界モデルの境界を押し上げるために設計されたビデオデータセットであるWorldQAを紹介する。質問の定式化に不可欠な5つの世界知識を同定する。我々は、専門家の知識をコヒーレントな推論チェーンに合成するためのエージェントであるWorldRetrieverを紹介する。
論文参考訳（メタデータ） (2024-05-06T08:42:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。