論文の概要: GenExam: A Multidisciplinary Text-to-Image Exam
- arxiv url: http://arxiv.org/abs/2509.14232v2
- Date: Thu, 02 Oct 2025 16:45:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.077605
- Title: GenExam: A Multidisciplinary Text-to-Image Exam
- Title(参考訳): GenExam: テキストから画像への多分野のエグゼクティブ
- Authors: Zhaokai Wang, Penghao Yin, Xiangyu Zhao, Changyao Tian, Yu Qiao, Wenhai Wang, Jifeng Dai, Gen Luo,
- Abstract要約: GenExamは、複数の学際的なテキスト・ツー・イメージテストのための最初のベンチマークである。
試験スタイルのプロンプトを4段階の分類で編成した10の被験者に1,000のサンプルを配置している。
それぞれの問題には、グランドトラスト画像ときめ細かいスコアポイントが備わっている。
- 参考スコア(独自算出の注目度): 91.06661449186537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Exams are a fundamental test of expert-level intelligence and require integrated understanding, reasoning, and generation. Existing exam-style benchmarks mainly focus on understanding and reasoning tasks, and current generation benchmarks emphasize the illustration of world knowledge and visual concepts, neglecting the evaluation of rigorous drawing exams. We introduce GenExam, the first benchmark for multidisciplinary text-to-image exams, featuring 1,000 samples across 10 subjects with exam-style prompts organized under a four-level taxonomy. Each problem is equipped with ground-truth images and fine-grained scoring points to enable a precise evaluation of semantic correctness and visual plausibility. Experiments show that even state-of-the-art models such as GPT-Image-1 and Gemini-2.5-Flash-Image achieve less than 15% strict scores, and most models yield almost 0%, suggesting the great challenge of our benchmark. By framing image generation as an exam, GenExam offers a rigorous assessment of models' ability to integrate understanding, reasoning, and generation, providing insights on the path to general AGI. Our benchmark and evaluation code are released at https://github.com/OpenGVLab/GenExam.
- Abstract(参考訳): Examはエキスパートレベルのインテリジェンスの基本テストであり、統合された理解、推論、生成を必要とします。
既存の試験スタイルのベンチマークは、主に理解と推論のタスクに焦点を当てており、現在の世代ベンチマークは、厳密な図面試験の評価を無視して、世界の知識と視覚概念の図面を強調している。
GenExamは、多分野のテキスト・ツー・イメージテストのための最初のベンチマークであり、4段階の分類で編成された試験スタイルのプロンプトを持つ10の被験者の1,000のサンプルを特徴とする。
それぞれの問題は、意味的正当性と視覚的可視性の正確な評価を可能にするために、地平線画像ときめ細かなスコアポイントを備える。
GPT-Image-1やGemini-2.5-Flash-Imageのような最先端モデルでさえ15%未満の厳密なスコアを達成しており、ほとんどのモデルでは0%近くを得ており、ベンチマークの大きな課題が示唆されている。
GenExamは、画像生成を試験として行うことで、理解、推論、生成を統合するモデルの能力を厳格に評価し、一般的なAGIへの道筋についての洞察を提供する。
ベンチマークと評価コードはhttps://github.com/OpenGVLab/GenExam.comで公開されています。
関連論文リスト
- MMMG: A Massive, Multidisciplinary, Multi-Tier Generation Benchmark for Text-to-Image Reasoning [20.382087716921003]
我々は、MMMG(Massive Multi-Discipline Multi-Tier Knowledge- Image Generation Benchmark)とともに、知識画像生成を新しいタスクとして導入する。
MMMGは10の分野、6の教育レベル、チャート、図、マインドマップといった多様な知識形式にまたがる4,456のエキスパート公認(知識)イメージプロンプトペアを提供している。
そこで本稿では,KG間のグラフ編集距離と視覚的明瞭度とを組み合わせ,実感的忠実度を評価するためのMMMGスコアを提案する。
論文 参考訳(メタデータ) (2025-06-12T17:58:09Z) - SridBench: Benchmark of Scientific Research Illustration Drawing of Image Generation Model [21.81341169834812]
SridBenchは、科学フィギュア生成のための最初のベンチマークである。
これは13の自然科学とコンピュータ科学の分野にわたる主要な科学論文から1,120の事例で構成されている。
その結果、GPT-4o画像のような最上位モデルでさえ、人間のパフォーマンスに遅れがあることが判明した。
論文 参考訳(メタデータ) (2025-05-28T08:51:01Z) - GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing [60.66800567924348]
テキスト誘導画像編集モデルを評価するための新しいベンチマークを導入する。
このベンチマークには、20種類のコンテンツカテゴリにわたる高品質な編集例が1000以上含まれている。
我々は、GPT-Image-1をいくつかの最先端編集モデルと比較する大規模な研究を行っている。
論文 参考訳(メタデータ) (2025-05-16T17:55:54Z) - WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation [25.010417955441653]
テキスト・ツー・フォームド・モデル(T2I)は高品質な芸術作品や視覚コンテンツを生成することができる。
我々は、$textbfWorld Knowledge incorporation$bfIntext $textbfSemantic $textbfE$valuationのために特別に設計された最初のベンチマークである$textbfWISEを提案する。
論文 参考訳(メタデータ) (2025-03-10T12:47:53Z) - GenAI-Bench: Evaluating and Improving Compositional Text-to-Visual Generation [103.3465421081531]
VQAScoreは、VQAモデルが画像がプロンプトを正確に描写しているとみなす可能性を測定するメトリクスである。
VQAScoreによるランク付けは、PickScore、HPSv2、ImageRewardなどの他のスコアリング方法よりも2倍から3倍効果的である。
我々は、同じプロンプトから生成されたランキング画像のスコアを評価するために、4万以上の人間格付けを備えたGenAI-Rankベンチマークを新たにリリースした。
論文 参考訳(メタデータ) (2024-06-19T18:00:07Z) - AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models [122.63704560157909]
我々は,人間中心の標準化試験の文脈で基礎モデルを評価するために設計された新しいベンチマークであるAGIEvalを紹介する。
GPT-4, ChatGPT, Text-Davinci-003 など,最先端基盤モデルの評価を行った。
GPT-4はSAT、LSAT、数学の競争で平均的な人事成績を上回り、SAT Mathテストでは95%の精度で、中国国立大学入試では92.5%の精度で合格している。
論文 参考訳(メタデータ) (2023-04-13T09:39:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。