論文の概要: Draw ALL Your Imagine: A Holistic Benchmark and Agent Framework for Complex Instruction-based Image Generation
- arxiv url: http://arxiv.org/abs/2505.24787v1
- Date: Fri, 30 May 2025 16:48:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.083559
- Title: Draw ALL Your Imagine: A Holistic Benchmark and Agent Framework for Complex Instruction-based Image Generation
- Title(参考訳): 複雑なインストラクションに基づく画像生成のためのホロスティックベンチマークとエージェントフレームワーク
- Authors: Yucheng Zhou, Jiahao Yuan, Qianning Wang,
- Abstract要約: LongBench-T2Iは、複雑な命令の下でテキスト・トゥ・イメージ(T2I)モデルを評価するためのベンチマークである。
LongBench-T2Iは9つの視覚的評価次元にまたがる500の複雑なプロンプトで構成されている。
Plan2Genは複雑な命令駆動の画像生成を容易にするフレームワークで、追加のモデルトレーニングを必要としない。
- 参考スコア(独自算出の注目度): 9.978181430065987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in text-to-image (T2I) generation have enabled models to produce high-quality images from textual descriptions. However, these models often struggle with complex instructions involving multiple objects, attributes, and spatial relationships. Existing benchmarks for evaluating T2I models primarily focus on general text-image alignment and fail to capture the nuanced requirements of complex, multi-faceted prompts. Given this gap, we introduce LongBench-T2I, a comprehensive benchmark specifically designed to evaluate T2I models under complex instructions. LongBench-T2I consists of 500 intricately designed prompts spanning nine diverse visual evaluation dimensions, enabling a thorough assessment of a model's ability to follow complex instructions. Beyond benchmarking, we propose an agent framework (Plan2Gen) that facilitates complex instruction-driven image generation without requiring additional model training. This framework integrates seamlessly with existing T2I models, using large language models to interpret and decompose complex prompts, thereby guiding the generation process more effectively. As existing evaluation metrics, such as CLIPScore, fail to adequately capture the nuances of complex instructions, we introduce an evaluation toolkit that automates the quality assessment of generated images using a set of multi-dimensional metrics. The data and code are released at https://github.com/yczhou001/LongBench-T2I.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)生成の最近の進歩により,テキスト記述から高品質な画像を生成することが可能になった。
しかしながら、これらのモデルは、複数のオブジェクト、属性、空間的関係を含む複雑な命令に苦しむことが多い。
T2Iモデルを評価するための既存のベンチマークは、主に一般的なテキストイメージアライメントに焦点を当てており、複雑で多面的なプロンプトのニュアンスな要求を捉えていない。
このギャップを考慮に入れ、複雑な指示の下でT2Iモデルを評価するために特別に設計された総合的なベンチマークであるLongBench-T2Iを紹介する。
LongBench-T2Iは、9つの視覚的評価次元にまたがる複雑な500のプロンプトで構成され、複雑な指示に従うモデルの能力の徹底的な評価を可能にする。
ベンチマーク以外のモデルトレーニングを必要とせずに複雑な命令駆動画像生成を容易にするエージェントフレームワーク(Plan2Gen)を提案する。
このフレームワークは既存のT2Iモデルとシームレスに統合され、大きな言語モデルを使用して複雑なプロンプトを解釈・分解し、生成プロセスをより効果的に導く。
既存の評価指標であるCLIPScoreは複雑な命令のニュアンスを適切に把握できないため,複数次元のメトリクスを用いて生成画像の品質評価を自動化する評価ツールキットを導入する。
データとコードはhttps://github.com/yczhou001/LongBench-T2Iで公開される。
関連論文リスト
- DetailMaster: Can Your Text-to-Image Model Handle Long Prompts? [30.739878622982847]
DetailMasterはテキスト・ツー・イメージ(T2I)モデルを評価するために設計された最初の総合ベンチマークである。
このベンチマークは、専門家アノテータによって高品質な検証がなされた、平均284.89トークンの長大かつ詳細なプロンプトで構成されている。
7つの汎用T2Iモデルと5つの長周期最適化T2Iモデルの評価は、重要な性能限界を示す。
論文 参考訳(メタデータ) (2025-05-22T17:11:27Z) - CompAlign: Improving Compositional Text-to-Image Generation with a Complex Benchmark and Fine-Grained Feedback [58.27353205269664]
最先端のT2Iモデルは、テキストプロンプトによって高解像度の画像を生成することができる。
しかし、複数の対象、属性、空間的関係を規定する構成的なシーンを正確に描写することは困難である。
我々は3次元空間的関係の描写を評価することに焦点を当てた、挑戦的なベンチマークであるCompAlignを紹介する。
論文 参考訳(メタデータ) (2025-05-16T12:23:58Z) - Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with
Auto-Generated Data [73.23388142296535]
SELMAは、自動生成されたマルチスキル画像テキストデータセット上での微調整モデルにより、T2Iモデルの忠実度を向上させる。
SELMAは、複数のベンチマーク上での最先端T2I拡散モデルのセマンティックアライメントとテキスト忠実性を大幅に改善することを示す。
また、SELMAを介して自動コンパイルされた画像テキストペアによる微調整は、地上の真理データによる微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-03-11T17:35:33Z) - T2I-CompBench++: An Enhanced and Comprehensive Benchmark for Compositional Text-to-image Generation [55.16845189272573]
T2I-CompBench++は、合成テキスト・画像生成のための拡張ベンチマークである。
8000のコンポジションテキストプロンプトは、属性バインディング、オブジェクト関係、生成数、複雑なコンポジションの4つのグループに分類される。
論文 参考訳(メタデータ) (2023-07-12T17:59:42Z) - Visual Programming for Text-to-Image Generation and Evaluation [73.12069620086311]
テキスト・トゥ・イメージ(T2I)生成と評価のための2つの新しい解釈可能・説明可能なビジュアル・プログラミング・フレームワークを提案する。
まず,T2I生成をオブジェクト/カウント生成,レイアウト生成,画像生成という3つのステップに分解する,解釈可能なステップバイステップT2I生成フレームワークであるVPGenを紹介する。
第2に、視覚プログラミングに基づくT2I生成のための解釈可能かつ説明可能な評価フレームワークであるVPEvalを紹介する。
論文 参考訳(メタデータ) (2023-05-24T16:42:17Z) - LeftRefill: Filling Right Canvas based on Left Reference through
Generalized Text-to-Image Diffusion Model [55.20469538848806]
leftRefillは、参照誘導画像合成のための大規模なテキスト・ツー・イメージ(T2I)拡散モデルを利用する革新的なアプローチである。
本稿では、参照誘導画像合成に大規模なテキスト・ツー・イメージ拡散モデル(T2I)を効果的に活用するための革新的なアプローチであるLeftRefillを紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。