論文の概要: MEGA-Bench: Scaling Multimodal Evaluation to over 500 Real-World Tasks
- arxiv url: http://arxiv.org/abs/2410.10563v2
- Date: Tue, 12 Nov 2024 11:16:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:16:53.024182
- Title: MEGA-Bench: Scaling Multimodal Evaluation to over 500 Real-World Tasks
- Title(参考訳): MEGA-Bench:500以上の実世界のタスクに対するマルチモーダル評価のスケールアップ
- Authors: Jiacheng Chen, Tianhao Liang, Sherman Siu, Zhengqing Wang, Kai Wang, Yubo Wang, Yuansheng Ni, Wang Zhu, Ziyan Jiang, Bohan Lyu, Dongfu Jiang, Xuan He, Yuan Liu, Hexiang Hu, Xiang Yue, Wenhu Chen,
- Abstract要約: MEGA-Benchは500以上の実世界のタスクにマルチモーダル評価をスケールする評価スイートである。
我々は16のエキスパートアノテータから8000以上のサンプルを含む505のタスクを収集し、マルチモーダルタスク空間を広範囲にカバーした。
- 参考スコア(独自算出の注目度): 49.59854479079552
- License:
- Abstract: We present MEGA-Bench, an evaluation suite that scales multimodal evaluation to over 500 real-world tasks, to address the highly heterogeneous daily use cases of end users. Our objective is to optimize for a set of high-quality data samples that cover a highly diverse and rich set of multimodal tasks, while enabling cost-effective and accurate model evaluation. In particular, we collected 505 realistic tasks encompassing over 8,000 samples from 16 expert annotators to extensively cover the multimodal task space. Instead of unifying these problems into standard multi-choice questions (like MMMU, MMBench, and MMT-Bench), we embrace a wide range of output formats like numbers, phrases, code, \LaTeX, coordinates, JSON, free-form, etc. To accommodate these formats, we developed over 40 metrics to evaluate these tasks. Unlike existing benchmarks, MEGA-Bench offers a fine-grained capability report across multiple dimensions (e.g., application, input type, output format, skill), allowing users to interact with and visualize model capabilities in depth. We evaluate a wide variety of frontier vision-language models on MEGA-Bench to understand their capabilities across these dimensions.
- Abstract(参考訳): 本稿では,500以上の実世界のタスクにマルチモーダル評価をスケールする評価スイートMEGA-Benchについて述べる。
本研究の目的は,高度に多種多様なマルチモーダルタスクをカバーし,コスト効率と高精度なモデル評価を可能にする,高品質なデータサンプルのセットを最適化することである。
特に16のエキスパートアノテータから8000以上のサンプルを含む505の現実的なタスクを収集し、マルチモーダルなタスク空間を広範囲にカバーした。
これらの問題を(MMMU、MMBench、MMT-Benchのような)標準的なマルチ選択の質問に統一する代わりに、数値、フレーズ、コード、 \LaTeX、座標、JSON、フリーフォームなど、幅広い出力フォーマットを採用しています。
これらのフォーマットに対応するために、これらのタスクを評価するためのメトリクスを40以上開発しました。
既存のベンチマークとは異なり、MEGA-Benchは複数の次元(アプリケーション、入力タイプ、出力フォーマット、スキルなど)にわたる詳細な機能レポートを提供しており、ユーザーはモデル機能と深く対話し視覚化することができる。
我々は,MEGA-Bench上での様々なフロンティア視覚言語モデルを評価し,これらの次元にわたってそれらの能力を理解する。
関連論文リスト
- MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - MMT-Bench: A Comprehensive Multimodal Benchmark for Evaluating Large Vision-Language Models Towards Multitask AGI [71.53579367538725]
MMT-Benchは、大規模なマルチモーダルタスクにわたるLVLM(Large Vision-Language Models)を評価するために設計されたベンチマークである。
MMT-Benchは、様々なマルチモーダルシナリオから、巧妙にキュレートされたマルチチョイスの視覚的質問を31,325ドルで提供する。
論文 参考訳(メタデータ) (2024-04-24T17:37:05Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - Multimodal Question Answering for Unified Information Extraction [15.798187192290746]
マルチモーダル情報抽出は、構造化されていないマルチメディアコンテンツから構造化された情報を抽出することを目的としている。
現在のMIEモデルはタスク固有でデータ集約である。
3つのMIEタスクを統合するための新しいマルチモーダル質問応答(MQA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-04T17:58:05Z) - Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech [107.81472531864195]
テキスト言語モデルは、よく整形された命令が与えられたときに、目に見えないタスクに一般化する際、顕著なゼロショット能力を示している。
ゼロショット方式で複数のタスクを実行するための命令チューニングを活用できるユニバーサル音声モデルを構築するためのベンチマークであるDynamic-SUPERBを提案する。
論文 参考訳(メタデータ) (2023-09-18T06:43:30Z) - M5Product: A Multi-modal Pretraining Benchmark for E-commercial Product
Downstream Tasks [94.80043324367858]
我々は600万以上のマルチモーダルペアからなるM5Productという大規模データセットをコントリビュートする。
M5Productには、画像、テキスト、テーブル、ビデオ、オーディオなど、複数のモードの豊富な情報が含まれている。
論文 参考訳(メタデータ) (2021-09-09T13:50:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。