論文の概要: R2I-Bench: Benchmarking Reasoning-Driven Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2505.23493v1
- Date: Thu, 29 May 2025 14:43:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.906215
- Title: R2I-Bench: Benchmarking Reasoning-Driven Text-to-Image Generation
- Title(参考訳): R2I-Bench: 推論駆動型テキスト画像生成のベンチマーク
- Authors: Kaijie Chen, Zihao Lin, Zhiyang Xu, Ying Shen, Yuguang Yao, Joy Rimchala, Jiaxin Zhang, Lifu Huang,
- Abstract要約: 推論は、現実世界のテキスト・ツー・イメージ(T2I)生成に必要な基本的な機能である。
最近のT2Iモデルでは、フォトリアリスティックな画像の生成が著しく進歩しているが、その推論能力はまだ未開発である。
推論駆動型T2I生成を厳格に評価するベンチマークであるR2I-Benchを紹介する。
- 参考スコア(独自算出の注目度): 26.816674696050413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning is a fundamental capability often required in real-world text-to-image (T2I) generation, e.g., generating ``a bitten apple that has been left in the air for more than a week`` necessitates understanding temporal decay and commonsense concepts. While recent T2I models have made impressive progress in producing photorealistic images, their reasoning capability remains underdeveloped and insufficiently evaluated. To bridge this gap, we introduce R2I-Bench, a comprehensive benchmark specifically designed to rigorously assess reasoning-driven T2I generation. R2I-Bench comprises meticulously curated data instances, spanning core reasoning categories, including commonsense, mathematical, logical, compositional, numerical, causal, and concept mixing. To facilitate fine-grained evaluation, we design R2IScore, a QA-style metric based on instance-specific, reasoning-oriented evaluation questions that assess three critical dimensions: text-image alignment, reasoning accuracy, and image quality. Extensive experiments with 16 representative T2I models, including a strong pipeline-based framework that decouples reasoning and generation using the state-of-the-art language and image generation models, demonstrate consistently limited reasoning performance, highlighting the need for more robust, reasoning-aware architectures in the next generation of T2I systems. Project Page: https://r2i-bench.github.io
- Abstract(参考訳): 推論は、実世界のテキスト・トゥ・イメージ(T2I)生成において必要とされる基本的な能力である。
最近のT2Iモデルは、フォトリアリスティック画像の生成において顕著な進歩を遂げているが、その推論能力は未熟であり、十分に評価されていない。
このギャップを埋めるために、推論駆動T2I生成を厳格に評価するための総合ベンチマークR2I-Benchを導入する。
R2I-Benchは厳密にキュレートされたデータインスタンスで構成され、コモンセンス、数学的、論理的、構成的、数値的、因果的、概念的混合を含むコア推論カテゴリにまたがる。
細粒度評価を容易にするために,テキスト画像アライメント,推論精度,画像品質の3つの重要な次元を評価できる,インスタンス固有な推論指向評価質問に基づくQAスタイルの尺度であるR2IScoreを設計した。
最先端の言語と画像生成モデルを使って推論と生成を分離する強力なパイプラインベースのフレームワークを含む16の代表的なT2Iモデルによる大規模な実験では、一貫して推論性能が制限されており、次世代のT2Iシステムにおけるより堅牢で推論に適応したアーキテクチャの必要性が強調されている。
Project Page: https://r2i-bench.github.io
関連論文リスト
- OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation [23.05106664412349]
テキスト・ツー・イメージ(T2I)モデルは、テキスト・プロンプトに整合した高品質な画像を生成する上で大きな注目を集めている。
OneIG-Benchは、T2Iモデルを複数の次元で評価するためのベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-06-09T17:50:21Z) - TIIF-Bench: How Does Your T2I Model Follow Your Instructions? [7.13169573900556]
本稿では, TIIF-Bench (Text-to-Image Instruction following Benchmark) を提案する。
TIIF-Benchは、複数の次元に沿って組織された5000のプロンプトから構成されており、難易度と複雑さの3つのレベルに分類される。
T2Iモデルのテキスト合成精度と美的コヒーレンスを評価するために,テキストレンダリングとスタイル制御という2つの重要な属性が導入された。
論文 参考訳(メタデータ) (2025-06-02T18:44:07Z) - ReasonGen-R1: CoT for Autoregressive Image generation models through SFT and RL [54.100889131719626]
連鎖推論と強化学習がNLPの突破口となった。
我々はReasonGen-R1を紹介した。ReasonGen-R1は自動回帰画像生成器に明示的なテキストベースの「思考」スキルを付与するフレームワークである。
ReasonGen-R1は、強いベースラインや先行技術モデルよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-05-30T17:59:48Z) - Draw ALL Your Imagine: A Holistic Benchmark and Agent Framework for Complex Instruction-based Image Generation [9.978181430065987]
LongBench-T2Iは、複雑な命令の下でテキスト・トゥ・イメージ(T2I)モデルを評価するためのベンチマークである。
LongBench-T2Iは9つの視覚的評価次元にまたがる500の複雑なプロンプトで構成されている。
Plan2Genは複雑な命令駆動の画像生成を容易にするフレームワークで、追加のモデルトレーニングを必要としない。
論文 参考訳(メタデータ) (2025-05-30T16:48:14Z) - Replace in Translation: Boost Concept Alignment in Counterfactual Text-to-Image [53.09546752700792]
我々は,この代替プロセスを明示論理ナラティブ・プロンプト (ELNP) と呼ぶ方法を提案する。
合成画像において,プロンプトに要求される概念を平均的にカバーできる数を計算するための計量を設計する。
大規模な実験と定性比較により、我々の戦略が反実的T2Iの概念の整合性を高めることが示される。
論文 参考訳(メタデータ) (2025-05-20T13:27:52Z) - T2I-FactualBench: Benchmarking the Factuality of Text-to-Image Models with Knowledge-Intensive Concepts [21.897804514122843]
T2I-FactualBench - 知識集約型概念生成の事実性を評価するために設計された概念とプロンプトの数で、これまでで最大のベンチマークである。
T2I-FactualBenchは、個々の知識概念の基本記憶から、複数の知識概念のより複雑な構成まで、三段階の知識集約型テキスト・画像生成フレームワークで構成されている。
論文 参考訳(メタデータ) (2024-12-05T16:21:01Z) - PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models [50.33699462106502]
テキスト・トゥ・イメージ(T2I)モデルは、物理コモンセンスと整合した画像を生成するのにしばしば失敗する。
現在のT2I評価ベンチマークは、精度、バイアス、安全性などの指標に焦点を当て、モデルの内部知識の評価を無視している。
メカニクス,光学,熱力学,材料特性の4つのカテゴリに700のプロンプトを含む総合的なT2I評価データセットであるPhyBenchを紹介する。
論文 参考訳(メタデータ) (2024-06-17T17:49:01Z) - Who Evaluates the Evaluations? Objectively Scoring Text-to-Image Prompt Coherence Metrics with T2IScoreScore (TS2) [62.44395685571094]
T2IScoreScoreはプロンプトを含むセマンティックエラーグラフのキュレートされたセットであり,誤画像の集合である。
これにより、与えられた迅速な忠実度測定値が、客観的な誤差数に対して正しく画像を順序付けできるかどうかを厳格に判断することができる。
最先端のVLMベースのメトリクスは、CLIPScoreのような単純な(そしておそらく悪い)機能ベースのメトリクスを著しく上回りません。
論文 参考訳(メタデータ) (2024-04-05T17:57:16Z) - Visual Programming for Text-to-Image Generation and Evaluation [73.12069620086311]
テキスト・トゥ・イメージ(T2I)生成と評価のための2つの新しい解釈可能・説明可能なビジュアル・プログラミング・フレームワークを提案する。
まず,T2I生成をオブジェクト/カウント生成,レイアウト生成,画像生成という3つのステップに分解する,解釈可能なステップバイステップT2I生成フレームワークであるVPGenを紹介する。
第2に、視覚プログラミングに基づくT2I生成のための解釈可能かつ説明可能な評価フレームワークであるVPEvalを紹介する。
論文 参考訳(メタデータ) (2023-05-24T16:42:17Z) - Benchmarking Spatial Relationships in Text-to-Image Generation [102.62422723894232]
本研究では,オブジェクト間の空間的関係を正確に生成するテキスト・ツー・イメージモデルについて検討する。
画像中にテキストで記述された空間関係がどれだけ正確に生成されるかを測定する評価指標であるVISORを提案する。
我々の実験では、最先端のT2Iモデルは高画質であるが、複数のオブジェクトを生成できる能力や、それらの間の空間的関係が著しく制限されていることが判明した。
論文 参考訳(メタデータ) (2022-12-20T06:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。