論文の概要: MME-Industry: A Cross-Industry Multimodal Evaluation Benchmark
- arxiv url: http://arxiv.org/abs/2501.16688v1
- Date: Tue, 28 Jan 2025 03:56:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:41:47.655444
- Title: MME-Industry: A Cross-Industry Multimodal Evaluation Benchmark
- Title(参考訳): MME-Industry: クロス産業マルチモーダル評価ベンチマーク
- Authors: Dongyi Yi, Guibo Zhu, Chenglin Ding, Zongshu Li, Dong Yi, Jinqiao Wang,
- Abstract要約: 産業環境におけるMLLMの評価に特化して設計された新しいベンチマークであるMME-Industryを紹介する。
ベンチマークは21の異なるドメインを含み、1ドメインにつき50の質問と回答のペアが1050である。
ベンチマークの中国語版と英語版の両方を提供し、これらの言語間でMLLMの能力の比較分析を可能にする。
- 参考スコア(独自算出の注目度): 20.642661835794975
- License:
- Abstract: With the rapid advancement of Multimodal Large Language Models (MLLMs), numerous evaluation benchmarks have emerged. However, comprehensive assessments of their performance across diverse industrial applications remain limited. In this paper, we introduce MME-Industry, a novel benchmark designed specifically for evaluating MLLMs in industrial settings.The benchmark encompasses 21 distinct domain, comprising 1050 question-answer pairs with 50 questions per domain. To ensure data integrity and prevent potential leakage from public datasets, all question-answer pairs were manually crafted and validated by domain experts. Besides, the benchmark's complexity is effectively enhanced by incorporating non-OCR questions that can be answered directly, along with tasks requiring specialized domain knowledge. Moreover, we provide both Chinese and English versions of the benchmark, enabling comparative analysis of MLLMs' capabilities across these languages. Our findings contribute valuable insights into MLLMs' practical industrial applications and illuminate promising directions for future model optimization research.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の急速な進歩に伴い、多くの評価ベンチマークが登場した。
しかし、多種多様な産業用途にまたがる業績の総合評価は依然として限られている。
本稿では,産業環境におけるMLLMの評価に特化して設計された新しいベンチマークであるMME-Industryを紹介する。
データ完全性を確保し、公開データセットからの潜在的な漏洩を防止するため、すべての質問と回答のペアは、ドメインの専門家によって手作業で作成され、検証された。
さらに、ベンチマークの複雑さは、特定のドメイン知識を必要とするタスクと直接答えられる非OCR質問を組み込むことで、効果的に強化される。
さらに、このベンチマークの中国語版と英語版も提供し、これらの言語間でMLLMの能力の比較分析を可能にした。
本研究は,MLLMの実用的産業応用に関する貴重な知見と今後のモデル最適化研究への有望な方向性を示すものである。
関連論文リスト
- EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents [57.4686961979566]
EmbodiedEvalは、組み込みタスクを持つMLLMの総合的かつインタラクティブな評価ベンチマークである。
多様性が大幅に向上した既存のAIタスクの幅広い範囲をカバーする。
EmbodiedEval における最先端MLLM の評価を行い,人体作業における人体レベルと比較して有意に不足していることがわかった。
論文 参考訳(メタデータ) (2025-01-21T03:22:10Z) - Redundancy Principles for MLLMs Benchmarks [72.88776679131253]
1) ベンチマーク能力の冗長性,2) テスト質問数の冗長性,3) 特定のドメイン内のクロスベンチマークの冗長性。
20以上のベンチマークで数百のMLLMの性能を総合的に分析することにより,既存のMLLM評価における冗長性のレベルを定量的に測定することを目指している。
論文 参考訳(メタデータ) (2025-01-20T08:09:42Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - MMAD: The First-Ever Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection [66.05200339481115]
本稿では,産業異常検出における最初のフルスペクトルMLLMベンチマークであるMMADを提案する。
産業検査におけるMLLMの7つの重要なサブタスクを定義し,MMADデータセットを生成するための新しいパイプラインを設計した。
MMADを用いて,様々な最先端MLLMの包括的,定量的評価を行った。
論文 参考訳(メタデータ) (2024-10-12T09:16:09Z) - A Survey on Multimodal Benchmarks: In the Era of Large AI Models [13.299775710527962]
MLLM(Multimodal Large Language Models)は、人工知能に大きな進歩をもたらした。
この調査は、4つのコアドメイン(理解、推論、生成、アプリケーション)にわたるMLLMを評価する211のベンチマークを体系的にレビューする。
論文 参考訳(メタデータ) (2024-09-21T15:22:26Z) - A Survey on Benchmarks of Multimodal Large Language Models [65.87641718350639]
本稿では,Multimodal Large Language Models (MLLM) のベンチマークと評価について概説する。
本研究では,(1)知覚と理解,(2)認知と推論,(3)特定のドメイン,(4)キー能力,(5)他のモダリティに着目した。
我々のキーとなる主張は、MLLMの開発をより良いものにするための重要な規律として評価されるべきである、ということである。
論文 参考訳(メタデータ) (2024-08-16T09:52:02Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - Empower Large Language Model to Perform Better on Industrial
Domain-Specific Question Answering [36.31193273252256]
大規模言語モデル(LLM)は、オープンドメインタスクにおいて大きな成果を上げている。
しかし、実際の産業ドメイン固有のシナリオにおけるパフォーマンスは、特定のドメイン知識が欠如しているため平均的です。
私たちは、Microsoft製品と顧客が遭遇するIT技術的な問題を中心にした、MSQA(QA)データセットのベンチマークを提供します。
論文 参考訳(メタデータ) (2023-05-19T09:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。