論文の概要: UmniBench: Unified Understand and Generation Model Oriented Omni-dimensional Benchmark
- arxiv url: http://arxiv.org/abs/2512.17196v1
- Date: Fri, 19 Dec 2025 03:20:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.228525
- Title: UmniBench: Unified Understand and Generation Model Oriented Omni-dimensional Benchmark
- Title(参考訳): UmniBench: 統一された理解と生成モデル、全次元ベンチマーク
- Authors: Kai Liu, Leyang Chen, Wenbo Li, Zhikai Chen, Zhixin Wang, Renjing Pei, Linghe Kong, Yulun Zhang,
- Abstract要約: UmniBenchは、全次元評価を備えた統一マルチモーダルモデルに適したベンチマークである。
13の主要ドメインと200以上の概念をカバーし、UMMの徹底的な検査を保証する。
UmniBenchをベースとして、UMMと単一機能大モデルを含む24の人気のあるモデルをベンチマークする。
- 参考スコア(独自算出の注目度): 46.85189386884927
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unifying multimodal understanding and generation has shown impressive capabilities in cutting-edge proprietary systems. However, evaluations of unified multimodal models (UMMs) remain decoupled, assessing their understanding and generation abilities separately with corresponding datasets. To address this, we propose UmniBench, a benchmark tailored for UMMs with omni-dimensional evaluation. First, UmniBench can assess the understanding, generation, and editing ability within a single evaluation process. Based on human-examined prompts and QA pairs, UmniBench leverages UMM itself to evaluate its generation and editing ability with its understanding ability. This simple but effective paradigm allows comprehensive evaluation of UMMs. Second, UmniBench covers 13 major domains and more than 200 concepts, ensuring a thorough inspection of UMMs. Moreover, UmniBench can also decouple and separately evaluate understanding, generation, and editing abilities, providing a fine-grained assessment. Based on UmniBench, we benchmark 24 popular models, including both UMMs and single-ability large models. We hope this benchmark provides a more comprehensive and objective view of unified models and logistical support for improving the performance of the community model.
- Abstract(参考訳): 最先端のプロプライエタリシステムでは,マルチモーダル理解と生成の統一が目覚ましい能力を示している。
しかし、統一マルチモーダルモデル(UMM)の評価は分離され、その理解と生成能力は対応するデータセットと別々に評価される。
そこで我々は,UmniBenchを提案する。UmniBench,UmniBench,UmniBench,UmniBench,UmniBench,UmniBench,UmniBench,UmniBench,UmniBench,UmniBench, UmniBench,UmniBench,UmniBench,UmniBench,UmniBench,UmniBench,UmniBench,Um
まず、UmniBenchは単一の評価プロセス内で理解、生成、編集の能力を評価することができる。
UmniBenchはUMM自体を活用して、その生成と編集能力をその理解能力で評価する。
この単純だが効果的なパラダイムは、UMMの包括的な評価を可能にする。
第2に、UmniBenchは13の主要なドメインと200以上の概念をカバーし、UMMの徹底的な検査を保証する。
さらに、UmniBenchは理解、生成、編集能力を分離して評価し、きめ細かい評価を提供する。
UmniBenchをベースとして、UMMと単一機能大モデルを含む24の人気のあるモデルをベンチマークする。
このベンチマークは、統一モデルのより包括的で客観的なビューと、コミュニティモデルの性能向上のためのロジカルサポートを提供してくれることを願っています。
関連論文リスト
- Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark [69.8473923357969]
統一マルチモーダルモデルは、視覚的理解と生成を共同で行うことを目的としているが、現在のベンチマークでは、その真の統合を検査することはめったにない。
提案するUni-MMMUは、8つの推論中心領域にまたがる生成と理解の双方向の相乗効果を拡大する総合的なベンチマークである。
論文 参考訳(メタデータ) (2025-10-15T17:10:35Z) - UniEval: Unified Holistic Evaluation for Unified Multimodal Understanding and Generation [15.938314589086914]
追加モデルや画像,アノテーションを使わずに,統一マルチモーダルモデル用に設計された最初の評価フレームワークであるUniEvalを紹介する。
このフレームワークには、UniBenchという総合的なベンチマークと、対応するUniScoreメトリックが含まれている。
我々はまた、SoTAの統一および視覚生成モデルについても広範囲に評価し、Univeralのユニークな値に対する新たな洞察を明らかにした。
論文 参考訳(メタデータ) (2025-05-15T16:34:50Z) - MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [153.37868034779385]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。
近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文 参考訳(メタデータ) (2023-08-04T17:59:47Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。
MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。
MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z) - Towards a Unified Multi-Dimensional Evaluator for Text Generation [101.47008809623202]
自然言語生成のための統一多次元評価器UniEvalを提案する。
我々はNLG評価をブール質問回答(QA)タスクとして再設定し、異なる質問でモデルを導くことで、複数の次元から評価するために1つの評価器を使うことができる。
3つの典型的なNLGタスクの実験では、UniEvalは既存のメトリクスよりも人間の判断と大きく相関している。
論文 参考訳(メタデータ) (2022-10-13T17:17:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。