論文の概要: OmniGenBench: A Benchmark for Omnipotent Multimodal Generation across 50+ Tasks
- arxiv url: http://arxiv.org/abs/2505.18775v1
- Date: Sat, 24 May 2025 16:29:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.653908
- Title: OmniGenBench: A Benchmark for Omnipotent Multimodal Generation across 50+ Tasks
- Title(参考訳): OmniGenBench: 50以上のタスクにまたがるOmnipotent Multimodal Generationのベンチマーク
- Authors: Jiayu Wang, Yang Jiao, Yue Yu, Tianwen Qian, Shaoxiang Chen, Jingjing Chen, Yu-Gang Jiang,
- Abstract要約: 大規模マルチモーダルモデル(LMM)の最近のブレークスルーは、画像生成のための汎用的な指示に従うのに顕著な熟練性を示している。
OmniGenBenchは、最先端のLMMの指示追従能力を評価するために、精密に設計された新しいベンチマークである。
我々のOmniGenBenchには57の多様なサブタスクが含まれており、それらが要求する特定のモデル能力に応じて体系的に分類されている。
- 参考スコア(独自算出の注目度): 77.19223035769248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent breakthroughs in large multimodal models (LMMs), such as the impressive GPT-4o-Native, have demonstrated remarkable proficiency in following general-purpose instructions for image generation. However, current benchmarks often lack the necessary breadth and depth to fully evaluate the diverse capabilities of these models. To overcome this limitation, we introduce OmniGenBench, a novel and comprehensive benchmark meticulously designed to assess the instruction-following abilities of state-of-the-art LMMs across both perception-centric and cognition-centric dimensions. Our OmniGenBench includes 57 diverse sub-tasks grounded in real-world scenarios, systematically categorized according to the specific model capabilities they demand. For rigorous evaluation, we further employ a dual-mode protocol. This protocol utilizes off-the-shelf visual parsing tools for perception-centric tasks and a powerful LLM-based judger for cognition-centric tasks to assess the alignment between generated images and user instructions. Using OmniGenBench, we evaluate mainstream generative models, including prevalent models like GPT-4o, Gemini-2.0-Flash, and Seedream, and provide in-depth comparisons and analyses of their performance.Code and data are available at https://github.com/emilia113/OmniGenBench.
- Abstract(参考訳): GPT-4o-Nativeのような大型マルチモーダルモデル(LMM)の最近のブレークスルーは、画像生成のための汎用的な指示に従うのに顕著な習熟性を示している。
しかしながら、現在のベンチマークでは、これらのモデルの多様な能力を十分に評価するために必要な幅と深さが欠如していることが多い。
この制限を克服するために、我々は、認識中心と認知中心の両次元にわたる最先端LMMの指示追従能力を評価するために、厳密に設計された新しい総合的なベンチマークであるOmniGenBenchを紹介する。
我々のOmniGenBenchには57の多様なサブタスクが含まれており、それらが要求する特定のモデル能力に応じて体系的に分類されている。
厳密な評価のために、我々はさらにデュアルモードプロトコルを用いる。
本プロトコルは,知覚中心のタスクに市販の視覚解析ツールを使用し,認知中心のタスクに強力なLCMベースの判断器を用いて,生成した画像とユーザ指示とのアライメントを評価する。
我々は、OmniGenBenchを用いて、GPT-4o、Gemini-2.0-Flash、Seedreamといった一般的なモデルを含む主流の生成モデルを評価し、詳細な比較と性能分析を提供し、コードとデータはhttps://github.com/emilia113/OmniGenBenchで入手できる。
関連論文リスト
- MMIG-Bench: Towards Comprehensive and Explainable Evaluation of Multi-Modal Image Generation Models [42.91502354577658]
MMIG-Benchは総合的なマルチモーダル画像生成ベンチマークである。
4,850件の注釈付きテキストプロンプトと380件の被験者に1,750件のマルチビュー参照イメージをペアリングする。
MMIG-Benchを用いて、Gemini 2.5 Pro、FLUX、DreamBooth、IP-Adapterを含む17の最先端モデルをベンチマークする。
論文 参考訳(メタデータ) (2025-05-26T02:07:24Z) - Evaluating LLM Metrics Through Real-World Capabilities [0.0]
大規模調査データと利用ログを分析し,Large Language Models(LLM)の使用方法を示す6つのコア機能を特定する。
次に、既存のベンチマークがこれらの機能をカバーする範囲を評価し、カバレッジ、効率測定、解釈可能性に大きなギャップがあることを明らかにする。
6つの機能のうち4つは、実世界のタスクに最適なベンチマークを特定し、それらを主要なモデルの比較に使用します。
論文 参考訳(メタデータ) (2025-05-13T06:02:37Z) - Multi-Dimensional Insights: Benchmarking Real-World Personalization in Large Multimodal Models [10.828419851213528]
人間の生活の一般的な6つのシナリオをカバーする500以上の画像を含む多次元インサイト(Multi-dimensional Insights)ベンチマークを提案する。
この設計により、異なる年齢集団の好みやニーズを満たすLMMの能力を詳細に評価することができる。
今後、MDI-BenchmarkがLMMにおける現実のパーソナライゼーションを整合させる新たな経路を開拓することを期待している。
論文 参考訳(メタデータ) (2024-12-17T07:06:10Z) - LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - Design2Code: Benchmarking Multimodal Code Generation for Automated Front-End Engineering [74.99736967448423]
私たちは、このタスクのための最初の実世界のベンチマークであるDesign2Codeを構築します。
テストケースとして484の多様な実世界のWebページを手作業でキュレートし、自動評価指標のセットを開発する。
我々の詳細なブレークダウンメトリクスは、入力されたWebページから視覚要素をリコールし、正しいレイアウト設計を生成するモデルがほとんど遅れていることを示している。
論文 参考訳(メタデータ) (2024-03-05T17:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。