論文の概要: ProImage-Bench: Rubric-Based Evaluation for Professional Image Generation
- arxiv url: http://arxiv.org/abs/2512.12220v1
- Date: Sat, 13 Dec 2025 07:13:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.170871
- Title: ProImage-Bench: Rubric-Based Evaluation for Professional Image Generation
- Title(参考訳): ProImage-Bench: プロのイメージ生成のためのルブリックベースの評価
- Authors: Minheng Ni, Zhengyuan Yang, Yaowen Zhang, Linjie Li, Chung-Ching Lin, Kevin Lin, Zhendong Wang, Xiaofei Wang, Shujie Liu, Lei Zhang, Wangmeng Zuo, Lijuan Wang,
- Abstract要約: 本研究では,技術記述から科学的に正確な図形を合成する必要がある専門的な画像生成について検討する。
実際の教科書やテクニカルレポートから収集した654個の図形に対して,詳細な画像指示と,精度を6,076の基準と44,131のバイナリチェックに分解するルーリックの階層を構築した。
ProImage-Bench上でいくつかの代表的なテキスト・ツー・イメージモデルをベンチマークし、オープンドメイン性能が強いにもかかわらず、最良のベースモデルは0.791の精度と0.553の基準スコアにしか達しないことを示した。
- 参考スコア(独自算出の注目度): 151.75112778479468
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We study professional image generation, where a model must synthesize information-dense, scientifically precise illustrations from technical descriptions rather than merely produce visually plausible pictures. To quantify the progress, we introduce ProImage-Bench, a rubric-based benchmark that targets biology schematics, engineering/patent drawings, and general scientific diagrams. For 654 figures collected from real textbooks and technical reports, we construct detailed image instructions and a hierarchy of rubrics that decompose correctness into 6,076 criteria and 44,131 binary checks. Rubrics are derived from surrounding text and reference figures using large multimodal models, and are evaluated by an automated LMM-based judge with a principled penalty scheme that aggregates sub-question outcomes into interpretable criterion scores. We benchmark several representative text-to-image models on ProImage-Bench and find that, despite strong open-domain performance, the best base model reaches only 0.791 rubric accuracy and 0.553 criterion score overall, revealing substantial gaps in fine-grained scientific fidelity. Finally, we show that the same rubrics provide actionable supervision: feeding failed checks back into an editing model for iterative refinement boosts a strong generator from 0.653 to 0.865 in rubric accuracy and from 0.388 to 0.697 in criterion score. ProImage-Bench thus offers both a rigorous diagnostic for professional image generation and a scalable signal for improving specification-faithful scientific illustrations.
- Abstract(参考訳): 専門的な画像生成について検討し,モデルが単に視覚的に可視な画像を生成するのではなく,技術記述から科学的に精密な図形を合成する必要があることを示す。
ProImage-Benchは,生物図学,工学図学図学図,一般科学図学図学を対象とするルーブリックベースのベンチマークである。
実際の教科書やテクニカルレポートから収集した654個の図形に対して,詳細な画像指示と,精度を6,076の基準と44,131のバイナリチェックに分解するルーリックの階層を構築した。
ラグビーは、周囲のテキストや参照図形から大きなマルチモーダルモデルを用いて派生し、サブクエストの結果を解釈可能な基準スコアに集約する原則付きペナルティスキームを備えたLMMベースの自動判断器によって評価される。
ProImage-Bench上でいくつかの代表的なテキスト・ツー・イメージモデルをベンチマークし、強力なオープンドメイン性能にもかかわらず、最良のベースモデルがルーブリック精度0.791、全体的な0.553の基準スコアにしか達せず、微細な科学的忠実度にかなりのギャップがあることを見出した。
最後に, 繰り返し精錬を行うための編集モデルに失敗したチェックをフィードバックすることで, ゴムの精度0.653から0.865に, 基準スコア0.388から0.697に強いジェネレータを増強する。
ProImage-Benchは、プロのイメージ生成のための厳密な診断と、仕様に忠実な科学的イラストを改善するスケーラブルな信号の両方を提供する。
関連論文リスト
- GenExam: A Multidisciplinary Text-to-Image Exam [91.06661449186537]
GenExamは、複数の学際的なテキスト・ツー・イメージテストのための最初のベンチマークである。
試験スタイルのプロンプトを4段階の分類で編成した10の被験者に1,000のサンプルを配置している。
それぞれの問題には、グランドトラスト画像ときめ細かいスコアポイントが備わっている。
論文 参考訳(メタデータ) (2025-09-17T17:59:14Z) - ImagiNet: A Multi-Content Benchmark for Synthetic Image Detection [0.0]
私たちは、写真、絵画、顔、雑多な4つのカテゴリにまたがる200万のサンプルのデータセットであるImagiNetを紹介します。
ImagiNetの合成画像はオープンソースとプロプライエタリの両方のジェネレータで作成され、各コンテントタイプの実際の画像はパブリックデータセットから収集される。
論文 参考訳(メタデータ) (2024-07-29T13:57:24Z) - ImagenHub: Standardizing the evaluation of conditional image generation
models [48.51117156168]
本稿では,条件付き画像生成モデルの推論と評価を標準化するワンストップライブラリであるImagenHubを提案する。
本研究では,感性一貫性と知覚品質という2つの評価スコアと,生成した画像を評価するための包括的なガイドラインを設計する。
人間の評価は,0.4以上の値を持つ76%のモデル上で,クリッペンドルフのαに対する高い労働者間合意を達成する。
論文 参考訳(メタデータ) (2023-10-02T19:41:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。