論文の概要: ProBench: Judging Multimodal Foundation Models on Open-ended Multi-domain Expert Tasks
- arxiv url: http://arxiv.org/abs/2503.06885v1
- Date: Mon, 10 Mar 2025 03:29:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:48:23.049871
- Title: ProBench: Judging Multimodal Foundation Models on Open-ended Multi-domain Expert Tasks
- Title(参考訳): ProBench: オープンなマルチドメインエキスパートタスクによるマルチモーダル財団モデルの判断
- Authors: Yan Yang, Dongxu Li, Haoning Wu, Bei Chen, Liu Liu, Liyuan Pan, Junnan Li,
- Abstract要約: ProBenchはプロの専門知識と高度な推論を必要とするオープンエンドのユーザクエリのベンチマークである。
10の分野と56のサブフィールドにまたがっており、科学、芸術、人文科学、コーディング、数学、創造的執筆などが含まれる。
ProBenchは、視覚知覚、テキスト理解、ドメイン知識、高度な推論において重要な課題を提示している。
- 参考スコア(独自算出の注目度): 43.509761349059914
- License:
- Abstract: Solving expert-level multimodal tasks is a key milestone towards general intelligence. As the capabilities of multimodal large language models (MLLMs) continue to improve, evaluation of such advanced multimodal intelligence becomes necessary yet challenging. In this work, we introduce ProBench, a benchmark of open-ended user queries that require professional expertise and advanced reasoning. ProBench consists of 4,000 high-quality samples independently submitted by professionals based on their daily productivity demands. It spans across 10 fields and 56 sub-fields, including science, arts, humanities, coding, mathematics, and creative writing. Experimentally, we evaluate and compare 24 latest models using MLLM-as-a-Judge. Our results reveal that although the best open-source models rival the proprietary ones, ProBench presents significant challenges in visual perception, textual understanding, domain knowledge and advanced reasoning, thus providing valuable directions for future multimodal AI research efforts.
- Abstract(参考訳): 専門家レベルのマルチモーダルタスクを解決することは、汎用インテリジェンスにとって重要なマイルストーンだ。
マルチモーダル・大規模言語モデル(MLLM)の能力は向上を続けており、このような高度なマルチモーダル・インテリジェンスの評価は困難である。
本稿では,プロの専門知識と高度な推論を必要とするオープンエンドなユーザクエリのベンチマークであるProBenchを紹介する。
ProBenchは、生産性の日々の要求に基づいて、プロが独立して提出した4000の高品質なサンプルで構成されている。
10の分野と56のサブフィールドにまたがっており、科学、芸術、人文科学、コーディング、数学、創造的執筆などが含まれる。
実験により,MLLM-as-a-Judgeを用いた24種類の最新モデルの評価と比較を行った。
我々の結果は、最高のオープンソースモデルはプロプライエタリなモデルに匹敵するが、ProBenchは視覚的知覚、テキスト理解、ドメイン知識、高度な推論において重要な課題を示し、将来のマルチモーダルAI研究に有用な方向を提供する。
関連論文リスト
- EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。
我々はEmbodiedBench内のプロプライエタリでオープンソースなMLLMを19件評価した。
MLLMは高レベルのタスクでは優れているが、低レベルの操作には苦労する。
論文 参考訳(メタデータ) (2025-02-13T18:11:34Z) - Protecting Privacy in Multimodal Large Language Models with MLLMU-Bench [17.73279547506514]
マルチモーダル・ラージ・モデル・アンラーニングベンチマーク(MLLMU-Bench)は,マルチモーダル・マシン・アンラーニングの理解を深めるための新しいベンチマークである。
MLLMU-Benchは500の架空のプロファイルと153のプロフィールで構成され、各プロファイルは14以上のカスタマイズされた質問応答ペアで構成され、マルチモーダル(画像+テキスト)とユニモーダル(テキスト)の両方の観点から評価される。
意外なことに、我々の実験では、ユニモーダル・アンラーニングのアルゴリズムは生成タスクやクローズタスクに優れており、マルチモーダル・アンラーニングのアプローチはマルチモーダル入力による分類タスクにおいてより優れている。
論文 参考訳(メタデータ) (2024-10-29T15:07:23Z) - Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - MMT-Bench: A Comprehensive Multimodal Benchmark for Evaluating Large Vision-Language Models Towards Multitask AGI [71.53579367538725]
MMT-Benchは、大規模なマルチモーダルタスクにわたるLVLM(Large Vision-Language Models)を評価するために設計されたベンチマークである。
MMT-Benchは、様々なマルチモーダルシナリオから、巧妙にキュレートされたマルチチョイスの視覚的質問を31,325ドルで提供する。
論文 参考訳(メタデータ) (2024-04-24T17:37:05Z) - MULTI: Multimodal Understanding Leaderboard with Text and Images [24.04211732343361]
そこで本研究では,中国のマルチモーダルデータセットであるMultiについて述べる。
マルチモデルは、画像テキスト理解、複雑な推論、知識リコールを含む実世界の検査基準を用いてモデルを評価する。
Qwen2-VL-72BはMulti-Eliteで76.9%,Multi-Eliteで53.1%の精度で評価された。
論文 参考訳(メタデータ) (2024-02-05T16:41:02Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。