論文の概要: FlagEvalMM: A Flexible Framework for Comprehensive Multimodal Model Evaluation
- arxiv url: http://arxiv.org/abs/2506.09081v1
- Date: Tue, 10 Jun 2025 04:19:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:01.658779
- Title: FlagEvalMM: A Flexible Framework for Comprehensive Multimodal Model Evaluation
- Title(参考訳): FlagEvalMM: 総合的マルチモーダルモデル評価のための柔軟なフレームワーク
- Authors: Zheqi He, Yesheng Liu, Jing-shu Zheng, Xuejing Li, Richeng Xuan, Jin-Ge Yao, Xi Yang,
- Abstract要約: マルチモーダルモデルの評価を目的としたオープンソースの評価フレームワークであるFragEvalMMを提案する。
独立評価サービスを通じて評価からモデル推論を分離する。
FlagEvalMMは、モデルの強みと制限に関する正確で効率的な洞察を提供する。
- 参考スコア(独自算出の注目度): 4.751923055605684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present FlagEvalMM, an open-source evaluation framework designed to comprehensively assess multimodal models across a diverse range of vision-language understanding and generation tasks, such as visual question answering, text-to-image/video generation, and image-text retrieval. We decouple model inference from evaluation through an independent evaluation service, thus enabling flexible resource allocation and seamless integration of new tasks and models. Moreover, FlagEvalMM utilizes advanced inference acceleration tools (e.g., vLLM, SGLang) and asynchronous data loading to significantly enhance evaluation efficiency. Extensive experiments show that FlagEvalMM offers accurate and efficient insights into model strengths and limitations, making it a valuable tool for advancing multimodal research. The framework is publicly accessible athttps://github.com/flageval-baai/FlagEvalMM.
- Abstract(参考訳): 視覚的質問応答, テキスト・ツー・イメージ・ビデオ生成, 画像テキスト検索など, 多様な視覚言語理解・生成タスクにおいて, マルチモーダルモデルを包括的に評価するためのオープンソースの評価フレームワークであるFragEvalMMを提案する。
モデル推論を独立評価サービスを通じて評価から切り離し、フレキシブルなリソース割り当てを可能にし、新しいタスクやモデルのシームレスな統合を可能にします。
さらに、FragEvalMMは高度な推論アクセラレーションツール(例えば、vLLM、SGLang)と非同期データローディングを使用して、評価効率を大幅に向上させる。
大規模な実験により、FragEvalMMはモデルの強度と限界に関する正確かつ効率的な洞察を提供し、マルチモーダルな研究を進める上で貴重なツールであることが示された。
このフレームワークはhttps://github.com/flageval-baai/FlagEvalMMで公開されている。
関連論文リスト
- EvalGIM: A Library for Evaluating Generative Image Models [26.631349186382664]
テキストから画像への生成モデルを評価するためのライブラリであるEvalGIMを紹介する。
EvalGIMは、品質、多様性、一貫性を測定するために使用されるデータセットとメトリクスを幅広くサポートする。
EvalGIMには、テキストから画像への生成モデルのための2つの新しい分析手法を導入する評価演習も含まれている。
論文 参考訳(メタデータ) (2024-12-13T23:15:35Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models [71.8065384742686]
LMMS-EVALは50以上のタスクと10以上のモデルを持つ統一的で標準化されたマルチモーダルベンチマークフレームワークである。
LMMS-EVAL LITEは、カバー範囲と効率の両方を重視したプルーニング評価ツールキットである。
マルチモーダルなLIVEBENCHは、ニュースやオンラインフォーラムを継続的に更新し、野生におけるモデルの一般化能力を評価する。
論文 参考訳(メタデータ) (2024-07-17T17:51:53Z) - UltraEval: A Lightweight Platform for Flexible and Comprehensive Evaluation for LLMs [74.1976921342982]
本稿では,ユーザフレンドリな評価フレームワークであるUltraEvalを紹介し,その軽量性,包括性,モジュール性,効率性を特徴とする。
その結果のコンポーザビリティにより、統一された評価ワークフロー内で、さまざまなモデル、タスク、プロンプト、ベンチマーク、メトリクスを自由に組み合わせることができる。
論文 参考訳(メタデータ) (2024-04-11T09:17:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。