論文の概要: UniEval: Unified Holistic Evaluation for Unified Multimodal Understanding and Generation
- arxiv url: http://arxiv.org/abs/2505.10483v1
- Date: Thu, 15 May 2025 16:34:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.4221
- Title: UniEval: Unified Holistic Evaluation for Unified Multimodal Understanding and Generation
- Title(参考訳): UniEval: 統一マルチモーダル理解と生成のための統一完全性評価
- Authors: Yi Li, Haonan Wang, Qixiang Zhang, Boyu Xiao, Chenchang Hu, Hualiang Wang, Xiaomeng Li,
- Abstract要約: 追加モデルや画像,アノテーションを使わずに,統一マルチモーダルモデル用に設計された最初の評価フレームワークであるUniEvalを紹介する。
このフレームワークには、UniBenchという総合的なベンチマークと、対応するUniScoreメトリックが含まれている。
我々はまた、SoTAの統一および視覚生成モデルについても広範囲に評価し、Univeralのユニークな値に対する新たな洞察を明らかにした。
- 参考スコア(独自算出の注目度): 15.938314589086914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of unified multimodal understanding and generation models is rapidly attracting attention because of their ability to enhance instruction-following capabilities while minimizing model redundancy. However, there is a lack of a unified evaluation framework for these models, which would enable an elegant, simplified, and overall evaluation. Current models conduct evaluations on multiple task-specific benchmarks, but there are significant limitations, such as the lack of overall results, errors from extra evaluation models, reliance on extensive labeled images, benchmarks that lack diversity, and metrics with limited capacity for instruction-following evaluation. To tackle these challenges, we introduce UniEval, the first evaluation framework designed for unified multimodal models without extra models, images, or annotations. This facilitates a simplified and unified evaluation process. The UniEval framework contains a holistic benchmark, UniBench (supports both unified and visual generation models), along with the corresponding UniScore metric. UniBench includes 81 fine-grained tags contributing to high diversity. Experimental results indicate that UniBench is more challenging than existing benchmarks, and UniScore aligns closely with human evaluations, surpassing current metrics. Moreover, we extensively evaluated SoTA unified and visual generation models, uncovering new insights into Univeral's unique values.
- Abstract(参考訳): モデル冗長性を最小化しつつ、命令追従能力を向上させる能力によって、統合マルチモーダル理解と生成モデルの出現が急速に注目されている。
しかし、これらのモデルに統一的な評価フレームワークがないため、エレガントで単純化され、全体的な評価が可能になる。
現在のモデルは、複数のタスク固有のベンチマークで評価を行うが、全体的な結果の欠如、余分な評価モデルからのエラー、広範なラベル付き画像への依存、多様性に欠けるベンチマーク、命令追従評価の能力に制限のあるメトリクスなど、大きな制限がある。
これらの課題に対処するため、UniEvalは、余分なモデル、画像、アノテーションを使わずに、統一マルチモーダルモデル用に設計された最初の評価フレームワークである。
これにより、シンプルで統一された評価プロセスが実現される。
UniEvalフレームワークには、UniBench(統一およびビジュアル生成モデルの両方をサポートする)という総合的なベンチマークと、対応するUniScoreメトリックが含まれている。
UniBenchには81のきめ細かいタグが含まれている。
実験の結果、UniBenchは既存のベンチマークよりも難しいことが示され、UniScoreは人間の評価と密接に一致し、現在のメトリクスを上回っている。
さらに,SoTA統合モデルとビジュアルジェネレーションモデルを広範囲に評価し,Univeralのユニークな値に対する新たな洞察を明らかにした。
関連論文リスト
- ONEBench to Test Them All: Sample-Level Benchmarking Over Open-Ended Capabilities [30.123976500620834]
従来の固定テストセットは、ファンデーションモデルのオープンな機能を評価するのに不足しています。
ONEBenchは、個々の評価データセットを統一し、拡張し続けるサンプルプールに統合する新しいテストパラダイムである。
ONEBenchは、テストセットにまたがってサンプルを集約することにより、オリジナルのテストセットでカバーされたもの以上の多様な機能の評価を可能にする。
論文 参考訳(メタデータ) (2024-12-09T18:37:14Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - Eureka: Evaluating and Understanding Large Foundation Models [23.020996995362104]
Eurekaは、シングルスコアのレポートやランキングを超えて、大規模な基盤モデルの評価を標準化するためのオープンソースのフレームワークです。
我々は、12の最先端モデルを分析し、失敗理解とモデル比較に関する詳細な洞察を提供する。
論文 参考訳(メタデータ) (2024-09-13T18:01:49Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。
MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。
MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。