論文の概要: Beyond Words and Pixels: A Benchmark for Implicit World Knowledge Reasoning in Generative Models
- arxiv url: http://arxiv.org/abs/2511.18271v1
- Date: Sun, 23 Nov 2025 03:44:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.736135
- Title: Beyond Words and Pixels: A Benchmark for Implicit World Knowledge Reasoning in Generative Models
- Title(参考訳): 単語とピクセルを超えて - 生成モデルにおける暗黙の世界の知識推論のためのベンチマーク
- Authors: Tianyang Han, Junhao Su, Junjie Hu, Peizhen Yang, Hengyu Shi, Junfeng Luo, Jialin Gao,
- Abstract要約: 我々は、暗黙の世界の知識とT2Iモデルの物理的因果推論の把握を評価する最初の総合的なベンチマークであるPicWorldを紹介する。
このベンチマークは、3つのコアカテゴリにわたる1,100のプロンプトで構成されている。
我々は、PicWorldで17の主流モデルT2Iを徹底的に分析し、暗黙の世界知識と物理的因果推論の能力に普遍的に限界があることを示した。
- 参考スコア(独自算出の注目度): 15.983959465314749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image (T2I) models today are capable of producing photorealistic, instruction-following images, yet they still frequently fail on prompts that require implicit world knowledge. Existing evaluation protocols either emphasize compositional alignment or rely on single-round VQA-based scoring, leaving critical dimensions such as knowledge grounding, multi-physics interactions, and auditable evidence-substantially undertested. To address these limitations, we introduce PicWorld, the first comprehensive benchmark that assesses the grasp of implicit world knowledge and physical causal reasoning of T2I models. This benchmark consists of 1,100 prompts across three core categories. To facilitate fine-grained evaluation, we propose PW-Agent, an evidence-grounded multi-agent evaluator to hierarchically assess images on their physical realism and logical consistency by decomposing prompts into verifiable visual evidence. We conduct a thorough analysis of 17 mainstream T2I models on PicWorld, illustrating that they universally exhibit a fundamental limitation in their capacity for implicit world knowledge and physical causal reasoning to varying degrees. The findings highlight the need for reasoning-aware, knowledge-integrative architectures in future T2I systems.
- Abstract(参考訳): 現在、テキスト・トゥ・イメージ(T2I)モデルは、フォトリアリスティックで命令を追従する画像を生成できるが、それでも暗黙の世界知識を必要とするプロンプトで失敗することが多い。
既存の評価プロトコルは、構成的アライメントを強調するか、シングルラウンドのVQAベースのスコアに頼っているか、知識基盤、多分野の相互作用、監査可能なエビデンスなどの重要な次元を残している。
これらの制約に対処するために、暗黙の世界知識の把握とT2Iモデルの物理的因果推論を評価する最初の総合的なベンチマークであるPicWorldを紹介する。
このベンチマークは、3つのコアカテゴリにわたる1,100のプロンプトで構成されている。
そこで我々は,PW-Agentを提案する。PW-Agentは,証明可能な視覚的証拠にプロンプトを分解することで,それらの物理的リアリズムと論理的一貫性の画像を階層的に評価する,エビデンス付きマルチエージェント評価器である。
我々は、PicWorldで17の主流モデルT2Iを徹底的に分析し、暗黙の世界知識と物理的因果推論の能力に普遍的に限界があることを示した。
この結果は、将来のT2Iシステムにおける推論、知識統合アーキテクチャの必要性を浮き彫りにしている。
関連論文リスト
- AcT2I: Evaluating and Improving Action Depiction in Text-to-Image Models [58.85362281293525]
本稿では、アクション中心のプロンプトから画像を生成する際のT2Iモデルの性能を評価するためのベンチマークであるAcT2Iを紹介する。
我々は、先行するT2IモデルがAcT2Iにうまく対応していないことを実験的に検証した。
我々は,この制限に対処するために,大規模言語モデルを用いた訓練不要の知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2025-09-19T16:41:39Z) - Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play? [63.66192651248858]
T2I-CoReBenchは、T2Iモデルの合成能力と推論能力の両方を評価する包括的で複雑なベンチマークである。
実世界の複雑さによって引き起こされる複雑さを増大させるために、我々は各プロンプトをより高い組成密度でキュレートする。
統計学では、我々のベンチマークは1080の挑戦的なプロンプトと約1,500のチェックリスト質問で構成されている。
論文 参考訳(メタデータ) (2025-09-03T17:58:12Z) - R2I-Bench: Benchmarking Reasoning-Driven Text-to-Image Generation [26.816674696050413]
推論は、現実世界のテキスト・ツー・イメージ(T2I)生成に必要な基本的な機能である。
最近のT2Iモデルでは、フォトリアリスティックな画像の生成が著しく進歩しているが、その推論能力はまだ未開発である。
推論駆動型T2I生成を厳格に評価するベンチマークであるR2I-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-29T14:43:46Z) - Replace in Translation: Boost Concept Alignment in Counterfactual Text-to-Image [53.09546752700792]
我々は,この代替プロセスを明示論理ナラティブ・プロンプト (ELNP) と呼ぶ方法を提案する。
合成画像において,プロンプトに要求される概念を平均的にカバーできる数を計算するための計量を設計する。
大規模な実験と定性比較により、我々の戦略が反実的T2Iの概念の整合性を高めることが示される。
論文 参考訳(メタデータ) (2025-05-20T13:27:52Z) - WorldGenBench: A World-Knowledge-Integrated Benchmark for Reasoning-Driven Text-to-Image Generation [38.196609962452655]
textbfWorldGenBenchは、T2Iモデルの世界の知識基盤と暗黙の推論能力を評価するために設計されたベンチマークである。
提案するtextbfKnowledge Checklist Scoreは,生成した画像がキーセマンティックな期待値を満たす度合いを計測する構造化メトリクスである。
本研究は,次世代T2Iシステムにおいて,より深い理解と推論機能の必要性を強調した。
論文 参考訳(メタデータ) (2025-05-02T17:59:06Z) - PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models [50.33699462106502]
テキスト・トゥ・イメージ(T2I)モデルは、物理コモンセンスと整合した画像を生成するのにしばしば失敗する。
現在のT2I評価ベンチマークは、精度、バイアス、安全性などの指標に焦点を当て、モデルの内部知識の評価を無視している。
メカニクス,光学,熱力学,材料特性の4つのカテゴリに700のプロンプトを含む総合的なT2I評価データセットであるPhyBenchを紹介する。
論文 参考訳(メタデータ) (2024-06-17T17:49:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。