論文の概要: ProImage-Bench: Rubric-Based Evaluation for Professional Image Generation
- arxiv url: http://arxiv.org/abs/2512.12220v1
- Date: Sat, 13 Dec 2025 07:13:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.170871
- Title: ProImage-Bench: Rubric-Based Evaluation for Professional Image Generation
- Title(参考訳): ProImage-Bench: プロのイメージ生成のためのルブリックベースの評価
- Authors: Minheng Ni, Zhengyuan Yang, Yaowen Zhang, Linjie Li, Chung-Ching Lin, Kevin Lin, Zhendong Wang, Xiaofei Wang, Shujie Liu, Lei Zhang, Wangmeng Zuo, Lijuan Wang,
- Abstract要約: 本研究では,技術記述から科学的に正確な図形を合成する必要がある専門的な画像生成について検討する。
実際の教科書やテクニカルレポートから収集した654個の図形に対して,詳細な画像指示と,精度を6,076の基準と44,131のバイナリチェックに分解するルーリックの階層を構築した。
ProImage-Bench上でいくつかの代表的なテキスト・ツー・イメージモデルをベンチマークし、オープンドメイン性能が強いにもかかわらず、最良のベースモデルは0.791の精度と0.553の基準スコアにしか達しないことを示した。
- 参考スコア(独自算出の注目度): 151.75112778479468
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We study professional image generation, where a model must synthesize information-dense, scientifically precise illustrations from technical descriptions rather than merely produce visually plausible pictures. To quantify the progress, we introduce ProImage-Bench, a rubric-based benchmark that targets biology schematics, engineering/patent drawings, and general scientific diagrams. For 654 figures collected from real textbooks and technical reports, we construct detailed image instructions and a hierarchy of rubrics that decompose correctness into 6,076 criteria and 44,131 binary checks. Rubrics are derived from surrounding text and reference figures using large multimodal models, and are evaluated by an automated LMM-based judge with a principled penalty scheme that aggregates sub-question outcomes into interpretable criterion scores. We benchmark several representative text-to-image models on ProImage-Bench and find that, despite strong open-domain performance, the best base model reaches only 0.791 rubric accuracy and 0.553 criterion score overall, revealing substantial gaps in fine-grained scientific fidelity. Finally, we show that the same rubrics provide actionable supervision: feeding failed checks back into an editing model for iterative refinement boosts a strong generator from 0.653 to 0.865 in rubric accuracy and from 0.388 to 0.697 in criterion score. ProImage-Bench thus offers both a rigorous diagnostic for professional image generation and a scalable signal for improving specification-faithful scientific illustrations.
- Abstract(参考訳): 専門的な画像生成について検討し,モデルが単に視覚的に可視な画像を生成するのではなく,技術記述から科学的に精密な図形を合成する必要があることを示す。
ProImage-Benchは,生物図学,工学図学図学図,一般科学図学図学を対象とするルーブリックベースのベンチマークである。
実際の教科書やテクニカルレポートから収集した654個の図形に対して,詳細な画像指示と,精度を6,076の基準と44,131のバイナリチェックに分解するルーリックの階層を構築した。
ラグビーは、周囲のテキストや参照図形から大きなマルチモーダルモデルを用いて派生し、サブクエストの結果を解釈可能な基準スコアに集約する原則付きペナルティスキームを備えたLMMベースの自動判断器によって評価される。
ProImage-Bench上でいくつかの代表的なテキスト・ツー・イメージモデルをベンチマークし、強力なオープンドメイン性能にもかかわらず、最良のベースモデルがルーブリック精度0.791、全体的な0.553の基準スコアにしか達せず、微細な科学的忠実度にかなりのギャップがあることを見出した。
最後に, 繰り返し精錬を行うための編集モデルに失敗したチェックをフィードバックすることで, ゴムの精度0.653から0.865に, 基準スコア0.388から0.697に強いジェネレータを増強する。
ProImage-Benchは、プロのイメージ生成のための厳密な診断と、仕様に忠実な科学的イラストを改善するスケーラブルな信号の両方を提供する。
関連論文リスト
- SCHEMA for Gemini 3 Pro Image: A Structured Methodology for Controlled AI Image Generation on Google's Native Multimodal Model [0.0]
SCHEMAは、850の検証済みAPI予測を含む、システマティックなプロフェッショナルプラクティスに基づいて構築された、エンジニアリングされたフレームワークである。
SchEMAは、探索的(約5%)から指示的(約95%)まで実践者のコントロールを拡大する
主要な発見は、621個の構造化プロンプトにまたがる91%の強制コンプライアンス率と94%の禁制コンプライアンス率である。
論文 参考訳(メタデータ) (2026-02-21T16:51:40Z) - GenExam: A Multidisciplinary Text-to-Image Exam [91.06661449186537]
GenExamは、複数の学際的なテキスト・ツー・イメージテストのための最初のベンチマークである。
試験スタイルのプロンプトを4段階の分類で編成した10の被験者に1,000のサンプルを配置している。
それぞれの問題には、グランドトラスト画像ときめ細かいスコアポイントが備わっている。
論文 参考訳(メタデータ) (2025-09-17T17:59:14Z) - FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark [62.2297310186354]
FLUX-Reason-6Mは600万の高品質FLUX生成画像と2000万のバイリンガル(英語と中国語)記述からなる巨大なデータセットである。
PRISM-Benchは、7つの異なるトラックを持つ新しい評価標準を提供する。
論文 参考訳(メタデータ) (2025-09-11T17:59:59Z) - Edge-Enhanced Vision Transformer Framework for Accurate AI-Generated Image Detection [0.0]
本稿では,視覚変換器(ViT)と新たなエッジベース画像処理モジュールを組み合わせたハイブリッド検出フレームワークを提案する。
提案手法は,自動コンテンツ検証とデジタル法医学における実世界の応用に非常に適している。
論文 参考訳(メタデータ) (2025-08-25T10:30:56Z) - A Unified Agentic Framework for Evaluating Conditional Image Generation [66.25099219134441]
コンディショナル画像生成は、コンテンツのパーソナライズ能力において大きな注目を集めている。
本稿では,条件付き画像生成タスクを包括的に評価するための統合エージェントフレームワークCIGEvalを紹介する。
論文 参考訳(メタデータ) (2025-04-09T17:04:14Z) - RELICT: A Replica Detection Framework for Medical Image Generation [34.82692226532414]
生成モデルにおける記憶化は、意図しない機密情報漏洩とリミットモデルユーティリティを引き起こす可能性がある。
合成医用画像データセットにおいて、複製、すなわち、ほぼ同一のトレーニングデータのコピーを識別するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-24T17:37:19Z) - ImagiNet: A Multi-Content Benchmark for Synthetic Image Detection [0.0]
私たちは、写真、絵画、顔、雑多な4つのカテゴリにまたがる200万のサンプルのデータセットであるImagiNetを紹介します。
ImagiNetの合成画像はオープンソースとプロプライエタリの両方のジェネレータで作成され、各コンテントタイプの実際の画像はパブリックデータセットから収集される。
論文 参考訳(メタデータ) (2024-07-29T13:57:24Z) - Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。
これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文 参考訳(メタデータ) (2024-06-10T17:59:52Z) - ImagenHub: Standardizing the evaluation of conditional image generation
models [48.51117156168]
本稿では,条件付き画像生成モデルの推論と評価を標準化するワンストップライブラリであるImagenHubを提案する。
本研究では,感性一貫性と知覚品質という2つの評価スコアと,生成した画像を評価するための包括的なガイドラインを設計する。
人間の評価は,0.4以上の値を持つ76%のモデル上で,クリッペンドルフのαに対する高い労働者間合意を達成する。
論文 参考訳(メタデータ) (2023-10-02T19:41:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。