論文の概要: R2I-Bench: Benchmarking Reasoning-Driven Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2505.23493v1
- Date: Thu, 29 May 2025 14:43:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.906215
- Title: R2I-Bench: Benchmarking Reasoning-Driven Text-to-Image Generation
- Title(参考訳): R2I-Bench: 推論駆動型テキスト画像生成のベンチマーク
- Authors: Kaijie Chen, Zihao Lin, Zhiyang Xu, Ying Shen, Yuguang Yao, Joy Rimchala, Jiaxin Zhang, Lifu Huang,
- Abstract要約: 推論は、現実世界のテキスト・ツー・イメージ(T2I)生成に必要な基本的な機能である。
最近のT2Iモデルでは、フォトリアリスティックな画像の生成が著しく進歩しているが、その推論能力はまだ未開発である。
推論駆動型T2I生成を厳格に評価するベンチマークであるR2I-Benchを紹介する。
- 参考スコア(独自算出の注目度): 26.816674696050413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning is a fundamental capability often required in real-world text-to-image (T2I) generation, e.g., generating ``a bitten apple that has been left in the air for more than a week`` necessitates understanding temporal decay and commonsense concepts. While recent T2I models have made impressive progress in producing photorealistic images, their reasoning capability remains underdeveloped and insufficiently evaluated. To bridge this gap, we introduce R2I-Bench, a comprehensive benchmark specifically designed to rigorously assess reasoning-driven T2I generation. R2I-Bench comprises meticulously curated data instances, spanning core reasoning categories, including commonsense, mathematical, logical, compositional, numerical, causal, and concept mixing. To facilitate fine-grained evaluation, we design R2IScore, a QA-style metric based on instance-specific, reasoning-oriented evaluation questions that assess three critical dimensions: text-image alignment, reasoning accuracy, and image quality. Extensive experiments with 16 representative T2I models, including a strong pipeline-based framework that decouples reasoning and generation using the state-of-the-art language and image generation models, demonstrate consistently limited reasoning performance, highlighting the need for more robust, reasoning-aware architectures in the next generation of T2I systems. Project Page: https://r2i-bench.github.io
- Abstract(参考訳): 推論は、実世界のテキスト・トゥ・イメージ(T2I)生成において必要とされる基本的な能力である。
最近のT2Iモデルは、フォトリアリスティック画像の生成において顕著な進歩を遂げているが、その推論能力は未熟であり、十分に評価されていない。
このギャップを埋めるために、推論駆動T2I生成を厳格に評価するための総合ベンチマークR2I-Benchを導入する。
R2I-Benchは厳密にキュレートされたデータインスタンスで構成され、コモンセンス、数学的、論理的、構成的、数値的、因果的、概念的混合を含むコア推論カテゴリにまたがる。
細粒度評価を容易にするために,テキスト画像アライメント,推論精度,画像品質の3つの重要な次元を評価できる,インスタンス固有な推論指向評価質問に基づくQAスタイルの尺度であるR2IScoreを設計した。
最先端の言語と画像生成モデルを使って推論と生成を分離する強力なパイプラインベースのフレームワークを含む16の代表的なT2Iモデルによる大規模な実験では、一貫して推論性能が制限されており、次世代のT2Iシステムにおけるより堅牢で推論に適応したアーキテクチャの必要性が強調されている。
Project Page: https://r2i-bench.github.io
関連論文リスト
- Replace in Translation: Boost Concept Alignment in Counterfactual Text-to-Image [53.09546752700792]
我々は,この代替プロセスを明示論理ナラティブ・プロンプト (ELNP) と呼ぶ方法を提案する。
合成画像において,プロンプトに要求される概念を平均的にカバーできる数を計算するための計量を設計する。
大規模な実験と定性比較により、我々の戦略が反実的T2Iの概念の整合性を高めることが示される。
論文 参考訳(メタデータ) (2025-05-20T13:27:52Z) - T2I-FactualBench: Benchmarking the Factuality of Text-to-Image Models with Knowledge-Intensive Concepts [21.897804514122843]
T2I-FactualBench - 知識集約型概念生成の事実性を評価するために設計された概念とプロンプトの数で、これまでで最大のベンチマークである。
T2I-FactualBenchは、個々の知識概念の基本記憶から、複数の知識概念のより複雑な構成まで、三段階の知識集約型テキスト・画像生成フレームワークで構成されている。
論文 参考訳(メタデータ) (2024-12-05T16:21:01Z) - PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models [50.33699462106502]
テキスト・トゥ・イメージ(T2I)モデルは、物理コモンセンスと整合した画像を生成するのにしばしば失敗する。
現在のT2I評価ベンチマークは、精度、バイアス、安全性などの指標に焦点を当て、モデルの内部知識の評価を無視している。
メカニクス,光学,熱力学,材料特性の4つのカテゴリに700のプロンプトを含む総合的なT2I評価データセットであるPhyBenchを紹介する。
論文 参考訳(メタデータ) (2024-06-17T17:49:01Z) - Benchmarking Spatial Relationships in Text-to-Image Generation [102.62422723894232]
本研究では,オブジェクト間の空間的関係を正確に生成するテキスト・ツー・イメージモデルについて検討する。
画像中にテキストで記述された空間関係がどれだけ正確に生成されるかを測定する評価指標であるVISORを提案する。
我々の実験では、最先端のT2Iモデルは高画質であるが、複数のオブジェクトを生成できる能力や、それらの間の空間的関係が著しく制限されていることが判明した。
論文 参考訳(メタデータ) (2022-12-20T06:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。