論文の概要: WorldGenBench: A World-Knowledge-Integrated Benchmark for Reasoning-Driven Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2505.01490v1
- Date: Fri, 02 May 2025 17:59:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.15036
- Title: WorldGenBench: A World-Knowledge-Integrated Benchmark for Reasoning-Driven Text-to-Image Generation
- Title(参考訳): WorldGenBench: 推論駆動型テキスト画像生成のためのワールド知識付きベンチマーク
- Authors: Daoan Zhang, Che Jiang, Ruoshi Xu, Biaoxiang Chen, Zijian Jin, Yutian Lu, Jianguo Zhang, Liang Yong, Jiebo Luo, Shengda Luo,
- Abstract要約: textbfWorldGenBenchは、T2Iモデルの世界の知識基盤と暗黙の推論能力を評価するために設計されたベンチマークである。
提案するtextbfKnowledge Checklist Scoreは,生成した画像がキーセマンティックな期待値を満たす度合いを計測する構造化メトリクスである。
本研究は,次世代T2Iシステムにおいて,より深い理解と推論機能の必要性を強調した。
- 参考スコア(独自算出の注目度): 38.196609962452655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in text-to-image (T2I) generation have achieved impressive results, yet existing models still struggle with prompts that require rich world knowledge and implicit reasoning: both of which are critical for producing semantically accurate, coherent, and contextually appropriate images in real-world scenarios. To address this gap, we introduce \textbf{WorldGenBench}, a benchmark designed to systematically evaluate T2I models' world knowledge grounding and implicit inferential capabilities, covering both the humanities and nature domains. We propose the \textbf{Knowledge Checklist Score}, a structured metric that measures how well generated images satisfy key semantic expectations. Experiments across 21 state-of-the-art models reveal that while diffusion models lead among open-source methods, proprietary auto-regressive models like GPT-4o exhibit significantly stronger reasoning and knowledge integration. Our findings highlight the need for deeper understanding and inference capabilities in next-generation T2I systems. Project Page: \href{https://dwanzhang-ai.github.io/WorldGenBench/}{https://dwanzhang-ai.github.io/WorldGenBench/}
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)生成の最近の進歩は目覚ましい成果を上げているが、既存のモデルは、豊かな世界の知識と暗黙の推論を必要とするプロンプトに苦戦している。
このギャップに対処するために,T2Iモデルの世界知識基盤と暗黙的推論能力を体系的に評価するベンチマークである \textbf{WorldGenBench} を導入する。
本稿では,生成した画像がキーセマンティックな期待値を満たす度合いを計測する構造化された指標である「textbf{Knowledge Checklist Score}」を提案する。
21の最先端モデルに対する実験により、拡散モデルはオープンソース手法で導かれるが、GPT-4oのようなプロプライエタリな自己回帰モデルは、より強力な推論と知識統合を示すことが明らかになった。
本研究は,次世代T2Iシステムにおいて,より深い理解と推論機能の必要性を強調した。
プロジェクトページ: \href{https://dwanzhang-ai.github.io/WorldGenBench/}{https://dwanzhang-ai.github.io/WorldGenBench/}
関連論文リスト
- EvalMuse-40K: A Reliable and Fine-Grained Benchmark with Comprehensive Human Annotations for Text-to-Image Generation Model Evaluation [29.176750442205325]
本研究では,EvalMuse-40Kベンチマークにコントリビュートし,画像テキストアライメントに関連するタスクに対して,微粒な人間のアノテーションを用いた40K画像テキストペアを収集する。
本稿では,T2Iモデルの画像テキストアライメント機能を評価するための2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-24T04:08:25Z) - Evaluating the Generation of Spatial Relations in Text and Image Generative Models [4.281091463408283]
空間関係は自然に空間的に理解される。
我々は、LLM出力を画像に変換するアプローチを開発し、T2IモデルとLLMの両方を評価する。
驚くべきことに、T2Iモデルは印象的な画像生成能力にもかかわらず、サブパー性能しか達成できないことがわかった。
論文 参考訳(メタデータ) (2024-11-12T09:30:02Z) - PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models [50.33699462106502]
テキスト・トゥ・イメージ(T2I)モデルは、物理コモンセンスと整合した画像を生成するのにしばしば失敗する。
現在のT2I評価ベンチマークは、精度、バイアス、安全性などの指標に焦点を当て、モデルの内部知識の評価を無視している。
メカニクス,光学,熱力学,材料特性の4つのカテゴリに700のプロンプトを含む総合的なT2I評価データセットであるPhyBenchを紹介する。
論文 参考訳(メタデータ) (2024-06-17T17:49:01Z) - Information Theoretic Text-to-Image Alignment [49.396917351264655]
相互情報(MI)は、モデルアライメントのガイドに使用される。
本手法は,自己教師型微調整を用いて,プロンプトと画像間のポイントワイド(MI)推定に依存する。
解析の結果,本手法は最先端の手法よりも優れているが,MIを推定するにはT2Iモデル自体の事前学習されたデノナイジングネットワークが必要であることが示唆された。
論文 参考訳(メタデータ) (2024-05-31T12:20:02Z) - LeftRefill: Filling Right Canvas based on Left Reference through
Generalized Text-to-Image Diffusion Model [55.20469538848806]
leftRefillは、参照誘導画像合成のための大規模なテキスト・ツー・イメージ(T2I)拡散モデルを利用する革新的なアプローチである。
本稿では、参照誘導画像合成に大規模なテキスト・ツー・イメージ拡散モデル(T2I)を効果的に活用するための革新的なアプローチであるLeftRefillを紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:29:42Z) - Benchmarking Spatial Relationships in Text-to-Image Generation [102.62422723894232]
本研究では,オブジェクト間の空間的関係を正確に生成するテキスト・ツー・イメージモデルについて検討する。
画像中にテキストで記述された空間関係がどれだけ正確に生成されるかを測定する評価指標であるVISORを提案する。
我々の実験では、最先端のT2Iモデルは高画質であるが、複数のオブジェクトを生成できる能力や、それらの間の空間的関係が著しく制限されていることが判明した。
論文 参考訳(メタデータ) (2022-12-20T06:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。