論文の概要: LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2407.12772v1
- Date: Wed, 17 Jul 2024 17:51:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 16:06:20.164039
- Title: LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models
- Title(参考訳): LMMs-Eval:大規模マルチモーダルモデルの現実的評価
- Authors: Kaichen Zhang, Bo Li, Peiyuan Zhang, Fanyi Pu, Joshua Adrian Cahyono, Kairui Hu, Shuai Liu, Yuanhan Zhang, Jingkang Yang, Chunyuan Li, Ziwei Liu,
- Abstract要約: LMMS-EVALは50以上のタスクと10以上のモデルを持つ統一的で標準化されたマルチモーダルベンチマークフレームワークである。
LMMS-EVAL LITEは、カバー範囲と効率の両方を重視したプルーニング評価ツールキットである。
マルチモーダルなLIVEBENCHは、ニュースやオンラインフォーラムを継続的に更新し、野生におけるモデルの一般化能力を評価する。
- 参考スコア(独自算出の注目度): 71.8065384742686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advances of large foundation models necessitate wide-coverage, low-cost, and zero-contamination benchmarks. Despite continuous exploration of language model evaluations, comprehensive studies on the evaluation of Large Multi-modal Models (LMMs) remain limited. In this work, we introduce LMMS-EVAL, a unified and standardized multimodal benchmark framework with over 50 tasks and more than 10 models to promote transparent and reproducible evaluations. Although LMMS-EVAL offers comprehensive coverage, we find it still falls short in achieving low cost and zero contamination. To approach this evaluation trilemma, we further introduce LMMS-EVAL LITE, a pruned evaluation toolkit that emphasizes both coverage and efficiency. Additionally, we present Multimodal LIVEBENCH that utilizes continuously updating news and online forums to assess models' generalization abilities in the wild, featuring a low-cost and zero-contamination evaluation approach. In summary, our work highlights the importance of considering the evaluation trilemma and provides practical solutions to navigate the trade-offs in evaluating large multi-modal models, paving the way for more effective and reliable benchmarking of LMMs. We opensource our codebase and maintain leaderboard of LIVEBENCH at https://github.com/EvolvingLMMs-Lab/lmms-eval and https://huggingface.co/spaces/lmms-lab/LiveBench.
- Abstract(参考訳): 大規模な基盤モデルの進歩は、広範囲のカバレッジ、低コスト、ゼロ汚染ベンチマークを必要とする。
言語モデル評価の継続的な調査にもかかわらず、LMM(Large Multi-modal Models)の評価に関する包括的な研究は限られている。
本稿では,50以上のタスクと10以上のモデルを備えた,統一的で標準化されたマルチモーダルベンチマークフレームワークであるLMMS-EVALを紹介し,透過的で再現可能な評価を促進する。
LMMS-EVALは包括的カバレッジを提供するが、低コストで汚染をゼロにするには依然として不足している。
この評価トリレンマにアプローチするために、我々は、カバー範囲と効率の両方を強調するプルーニング評価ツールキットLMMS-EVAL LITEを導入する。
さらに、ニュースやオンラインフォーラムを継続的に更新して、低コストでゼロな汚染評価アプローチを特徴とする、野生におけるモデルの一般化能力を評価するマルチモーダルLIVEBENCHを提案する。
まとめると、我々の研究は、評価のトリレンマを考えることの重要性を強調し、大規模なマルチモーダルモデルの評価においてトレードオフをナビゲートし、より効果的で信頼性の高いLMMベンチマークを行うための実践的なソリューションを提供する。
私たちはLIVEBENCHのコードベースをオープンソース化し、https://github.com/EvolvingLMMs-Lab/lmms-evalとhttps://huggingface.co/spaces/lmms-lab/LiveBenchでリーダーボードを維持しています。
関連論文リスト
- Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - FreeEval: A Modular Framework for Trustworthy and Efficient Evaluation of Large Language Models [36.273451767886726]
FreeEvalは、大規模言語モデルの信頼性と効率的な自動評価を可能にするために設計された、モジュール化されたスケーラブルなフレームワークである。
FreeEvalの統一された抽象化は、統合を単純化し、多様な評価方法論の透明性を改善します。
このフレームワークは、人間の評価やデータ汚染検出などのメタ評価技術を統合し、動的評価モジュールとともに、評価結果の公平性を高める。
論文 参考訳(メタデータ) (2024-04-09T04:17:51Z) - MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [44.401826163314716]
本稿では,強力なMLLMを裁判官として用いたMLLMの新たな評価パラダイムを提案する。
我々は,MLLMをペアワイズ方式でベンチマークし,モデル間での多彩な性能を示す。
我々のベンチマークの妥当性は、人間の評価と88.02%の合意に達したことを示している。
論文 参考訳(メタデータ) (2023-11-23T12:04:25Z) - AMBER: An LLM-free Multi-dimensional Benchmark for MLLMs Hallucination
Evaluation [58.19101663976327]
マルチモーダル大規模言語モデル(MLLM)は幻覚の重要な課題に直面する。
MLLMの幻覚を評価することは、モデルの改善と実践的なアプリケーション展開においてますます重要になっている。
生成タスクと識別タスクの両方を評価するために, LLMフリーな多次元ベンチマークAMBERを提案する。
論文 参考訳(メタデータ) (2023-11-13T15:25:42Z) - ChEF: A Comprehensive Evaluation Framework for Standardized Assessment
of Multimodal Large Language Models [49.48109472893714]
MLLM(Multimodal Large Language Models)は、視覚コンテンツと無数の下流タスクとを相互作用する優れた能力を示す。
本稿では,各MLLMを全体プロファイルし,異なるMLLMを比較した最初の総合評価フレームワーク(ChEF)を提案する。
詳細な実装をすべて公開して、さらなる分析と、新しいレシピやモデルを統合するための使い易いモジュラーツールキットを提供します。
論文 参考訳(メタデータ) (2023-11-05T16:01:40Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - CLEVA: Chinese Language Models EVAluation Platform [92.42981537317817]
CLEVAは,中国のLLMを階層的に評価するためのユーザフレンドリーなプラットフォームである。
当社のプラットフォームでは,LLMのパフォーマンスをさまざまな次元で評価するために標準化されたワークフローを採用し,定期的に競合するリーダボードを更新しています。
汚染を軽減するため、CLEVAは、新しいデータのかなりの割合をキュレーションし、各リーダーボードラウンドのユニークなサブセットを保証するサンプリング戦略を開発する。
マウスクリック数回とモデルAPIを必要とする使い勝手の良いインターフェースと、最小限のコーディングで徹底的な評価を行うことができる。
論文 参考訳(メタデータ) (2023-08-09T09:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。