論文の概要: BizGenEval: A Systematic Benchmark for Commercial Visual Content Generation
- arxiv url: http://arxiv.org/abs/2603.25732v1
- Date: Thu, 26 Mar 2026 17:59:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.426623
- Title: BizGenEval: A Systematic Benchmark for Commercial Visual Content Generation
- Title(参考訳): BizGenEval: 商用ビジュアルコンテンツ生成のためのシステムベンチマーク
- Authors: Yan Li, Zezi Zeng, Ziwei Zhou, Xin Gao, Muzhao Tian, Yifan Yang, Mingxi Cheng, Qi Dai, Yuqing Yang, Lili Qiu, Zhendong Wang, Zhengyuan Yang, Xue Yang, Lijuan Wang, Ji Li, Chong Luo,
- Abstract要約: BizGenEvalは、商用のビジュアルコンテンツ生成のための体系的なベンチマークである。
BizGenEvalには400の慎重にキュレートされたプロンプトと8000の人間検証チェックリスト質問が含まれている。
その結果、現在の生成モデルとプロのビジュアルコンテンツ作成の要件との間には、かなりの能力ギャップが明らかとなった。
- 参考スコア(独自算出の注目度): 96.52958279106777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in image generation models have expanded their applications beyond aesthetic imagery toward practical visual content creation. However, existing benchmarks mainly focus on natural image synthesis and fail to systematically evaluate models under the structured and multi-constraint requirements of real-world commercial design tasks. In this work, we introduce BizGenEval, a systematic benchmark for commercial visual content generation. The benchmark spans five representative document types: slides, charts, webpages, posters, and scientific figures, and evaluates four key capability dimensions: text rendering, layout control, attribute binding, and knowledge-based reasoning, forming 20 diverse evaluation tasks. BizGenEval contains 400 carefully curated prompts and 8000 human-verified checklist questions to rigorously assess whether generated images satisfy complex visual and semantic constraints. We conduct large-scale benchmarking on 26 popular image generation systems, including state-of-the-art commercial APIs and leading open-source models. The results reveal substantial capability gaps between current generative models and the requirements of professional visual content creation. We hope BizGenEval serves as a standardized benchmark for real-world commercial visual content generation.
- Abstract(参考訳): 画像生成モデルの最近の進歩は、美的イメージを超えて、実用的な視覚コンテンツ作成へと応用を広げている。
しかし、既存のベンチマークは主に自然画像合成に重点を置いており、実世界の商用デザインタスクの構造的・多制約的な要求の下でモデルを体系的に評価することができない。
本稿では,商業用ビジュアルコンテンツ生成のための体系的ベンチマークであるBizGenEvalを紹介する。
このベンチマークは、スライド、チャート、Webページ、ポスター、科学的な数字の5つの代表的なドキュメントタイプにまたがっており、テキストレンダリング、レイアウト制御、属性バインディング、ナレッジベースの推論の4つの重要な機能ディメンションを評価し、20の多様な評価タスクを形成している。
BizGenEvalには400の慎重にキュレートされたプロンプトと8000の人間による検証されたチェックリストの質問が含まれており、生成した画像が複雑な視覚的および意味的な制約を満たすかどうかを厳格に評価している。
最先端の商用APIや主要なオープンソースモデルを含む,26の人気のある画像生成システムに対して,大規模なベンチマークを実施している。
その結果、現在の生成モデルとプロのビジュアルコンテンツ作成の要件との間には、かなりの能力ギャップが明らかとなった。
BizGenEvalが、現実世界の商用ビジュアルコンテンツ生成の標準ベンチマークとして機能することを願っている。
関連論文リスト
- Visual Product Search Benchmark [0.0]
本報告では、インスタンスレベルの画像検索のための最新の視覚埋め込みモデルの構造化されたベンチマークを示す。
オープンソースのファウンデーション埋め込みモデル、プロプライエタリなマルチモーダル埋め込みシステム、ドメイン固有の視覚のみのモデルについて評価する。
評価は後処理なしで行われ、各モデルの検索能力を分離する。
論文 参考訳(メタデータ) (2026-03-17T22:29:03Z) - How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing [56.60465182650588]
我々は,3段階の相互作用階層を導入し,決定的接地,形態的操作,因果推論を捉える。
本稿では,スケーラブルできめ細かい評価を実現するために,タスク固有のメトリクスを備えた堅牢なLMM-as-a-judge評価フレームワークを提案する。
プロプライエタリなモデルは早期の視覚指示追従能力を示し、一貫してオープンソースモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2026-02-02T09:24:45Z) - OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation [23.05106664412349]
テキスト・ツー・イメージ(T2I)モデルは、テキスト・プロンプトに整合した高品質な画像を生成する上で大きな注目を集めている。
OneIG-Benchは、T2Iモデルを複数の次元で評価するためのベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-06-09T17:50:21Z) - KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
KITTENはKnowledge-InTensiveイメージジェネラティオンのベンチマークである。
我々は最新のテキスト・画像モデルと検索強化モデルについて体系的な研究を行う。
分析によると、高度なテキスト・ツー・イメージモデルでさえ、エンティティの正確な視覚的詳細を生成できない。
論文 参考訳(メタデータ) (2024-10-15T17:50:37Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - JourneyDB: A Benchmark for Generative Image Understanding [89.02046606392382]
生成画像の領域に適合する包括的データセットであるJourneyDBを導入する。
精巧にキュレートされたデータセットは、400万の異なる高品質な画像で構成されています。
本データセットでは,生成した画像の理解性能を評価するための4つのベンチマークを考案した。
論文 参考訳(メタデータ) (2023-07-03T02:39:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。