Fugu-MT 論文翻訳(概要): MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs

論文の概要: MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs

arxiv url: http://arxiv.org/abs/2411.15296v2
Date: Sun, 08 Dec 2024 04:24:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-10 16:49:05.489166
Title: MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs
Title（参考訳）: MME-Survey:マルチモーダルLLMの評価に関する総合的な調査
Authors: Chaoyou Fu, Yi-Fan Zhang, Shukang Yin, Bo Li, Xinyu Fang, Sirui Zhao, Haodong Duan, Xing Sun, Ziwei Liu, Liang Wang, Caifeng Shan, Ran He,
Abstract要約: MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
参考スコア（独自算出の注目度）: 97.94579295913606
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As a prominent direction of Artificial General Intelligence (AGI), Multimodal Large Language Models (MLLMs) have garnered increased attention from both industry and academia. Building upon pre-trained LLMs, this family of models further develops multimodal perception and reasoning capabilities that are impressive, such as writing code given a flow chart or creating stories based on an image. In the development process, evaluation is critical since it provides intuitive feedback and guidance on improving models. Distinct from the traditional train-eval-test paradigm that only favors a single task like image classification, the versatility of MLLMs has spurred the rise of various new benchmarks and evaluation methods. In this paper, we aim to present a comprehensive survey of MLLM evaluation, discussing four key aspects: 1) the summarised benchmarks types divided by the evaluation capabilities, including foundation capabilities, model self-analysis, and extented applications; 2) the typical process of benchmark counstruction, consisting of data collection, annotation, and precautions; 3) the systematic evaluation manner composed of judge, metric, and toolkit; 4) the outlook for the next benchmark. This work aims to offer researchers an easy grasp of how to effectively evaluate MLLMs according to different needs and to inspire better evaluation methods, thereby driving the progress of MLLM research.
Abstract（参考訳）: AGI(Artificial General Intelligence)の顕著な方向性として、MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。事前訓練されたLLMに基づいて構築されたこのモデル群は、フローチャートに与えられたコードを書いたり、画像に基づいてストーリーを作成するなど、印象的なマルチモーダル認識と推論能力をさらに発展させる。開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。画像分類のような単一タスクのみを優先する従来の列車時-テストパラダイムとは違い、MLLMの汎用性は、様々な新しいベンチマークや評価手法の台頭に拍車を掛けている。本稿では,MLLM評価に関する総合的な調査を行い,4つの重要な側面について論じる。 1) 基礎能力、モデル自己分析、拡張アプリケーションなど、評価能力によって分類された要約ベンチマークの種類 2 データ収集、アノテーション及び予防から成るベンチマークコウンストラクションの典型的なプロセス 3 審査、計量及びツールキットからなる系統的評価方法 4)次のベンチマークの見通し。本研究は,MLLMを異なるニーズに応じて効果的に評価する方法を研究者に容易に把握し,より優れた評価方法を考案し,MLLM研究の進展を促進することを目的としている。

関連論文リスト

LLM-Crowdsourced: A Benchmark-Free Paradigm for Mutual Evaluation of Large Language Models [13.713870642186254]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示す。既存の評価手法は、データ汚染、ブラックボックス操作、主観的嗜好といった問題に悩まされている。我々は,新しいベンチマークフリー評価パラダイム LLM-Crowdsourced を提案する。
論文参考訳（メタデータ） (2025-07-30T03:50:46Z)
MathOPEval: A Fine-grained Evaluation Benchmark for Visual Operations of MLLMs in Mathematical Reasoning [57.42710816140401]
有望なアプローチでは、中間表現としてコードを使用し、推論ステップで画像を正確に表現し、操作する。既存の評価はテキストのみの推論出力に重点を置いており、MLLMはコードによる正確な視覚操作をほとんど探索されていないままにしている。この研究は、マルチモーダル数学的推論におけるMLLMのコードベース能力を評価することによって、そのギャップに対処する第一歩を踏み出した。
論文参考訳（メタデータ） (2025-07-24T07:03:11Z)
PanguIR Technical Report for NTCIR-18 AEOLLM Task [12.061652026366591]
大規模言語モデル(LLM)はますます重要で、評価が難しい。手作業の評価は包括的ではあるが、コストが高くリソース集約的であることが多い。自動評価はスケーラビリティを提供するが、評価基準の制限によって制約される。
論文参考訳（メタデータ） (2025-03-04T07:40:02Z)
Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文参考訳（メタデータ） (2024-10-16T07:49:13Z)
LLaVA-Critic: Learning to Evaluate Multimodal Models [110.06665155812162]
本稿では,LLaVA-Criticについて紹介する。LLaVA-Criticは,汎用評価器として設計された,最初のオープンソースの大規模マルチモーダルモデル(LMM)である。 LLaVA-Criticは、さまざまな評価基準とシナリオを組み込んだ高品質な批判的インストラクションフォローデータセットを使用してトレーニングされている。
論文参考訳（メタデータ） (2024-10-03T17:36:33Z)
A Survey on Multimodal Benchmarks: In the Era of Large AI Models [13.299775710527962]
MLLM(Multimodal Large Language Models)は、人工知能に大きな進歩をもたらした。この調査は、4つのコアドメイン(理解、推論、生成、アプリケーション)にわたるMLLMを評価する211のベンチマークを体系的にレビューする。
論文参考訳（メタデータ） (2024-09-21T15:22:26Z)
Surveying the MLLM Landscape: A Meta-Review of Current Surveys [17.372501468675303]
MLLM(Multimodal Large Language Models)は、人工知能分野における変革の原動力となっている。本研究の目的は,MLLMのベンチマークテストと評価方法の体系的レビューを提供することである。
論文参考訳（メタデータ） (2024-09-17T14:35:38Z)
A Survey on Evaluation of Multimodal Large Language Models [11.572066870077888]
マルチモーダル大規模言語モデル(MLLM)は、強力な大規模言語モデル(LLM)を統合することで、人間の知覚と推論システムを模倣するこの枠組みはMLLMに人間のような能力を与え、人工知能(AGI)の実現への潜在的経路を示唆している。 GPT-4V や Gemini のような全周MLLM の出現に伴い,様々な次元にわたってその能力を評価するための評価手法が開発されている。
論文参考訳（メタデータ） (2024-08-28T13:05:55Z)
A Survey on Benchmarks of Multimodal Large Language Models [65.87641718350639]
本稿では,Multimodal Large Language Models (MLLM) のベンチマークと評価について概説する。本研究では,(1)知覚と理解,(2)認知と推論,(3)特定のドメイン,(4)キー能力,(5)他のモダリティに着目した。我々のキーとなる主張は、MLLMの開発をより良いものにするための重要な規律として評価されるべきである、ということである。
論文参考訳（メタデータ） (2024-08-16T09:52:02Z)
PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-28T12:33:14Z)
MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.500322937449326]
MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文参考訳（メタデータ） (2023-11-23T12:04:25Z)
A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文参考訳（メタデータ） (2023-07-06T16:28:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。