論文の概要: Why Settle for One? Text-to-ImageSet Generation and Evaluation
- arxiv url: http://arxiv.org/abs/2506.23275v1
- Date: Sun, 29 Jun 2025 15:01:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.801952
- Title: Why Settle for One? Text-to-ImageSet Generation and Evaluation
- Title(参考訳): なぜ落ち着くのか? テキスト・ツー・イメージセットの生成と評価
- Authors: Chengyou Jia, Xin Shen, Zhuohang Dang, Zhuohang Dang, Changliang Xia, Weijia Wu, Xinyu Zhang, Hangwei Qian, Ivor W. Tsang, Minnan Luo,
- Abstract要約: Text-to-ImageSet (T2IS) の生成は,ユーザ命令に基づいて,さまざまな一貫性要件を満たすイメージセットを生成することを目的としている。
トレーニング不要なフレームワークである$textbfAutoT2IS$を提案する。
また,本手法は,多くの未探索現実世界の応用を可能にする能力を示し,その実用的価値を実証する。
- 参考スコア(独自算出の注目度): 47.63138480571058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite remarkable progress in Text-to-Image models, many real-world applications require generating coherent image sets with diverse consistency requirements. Existing consistent methods often focus on a specific domain with specific aspects of consistency, which significantly constrains their generalizability to broader applications. In this paper, we propose a more challenging problem, Text-to-ImageSet (T2IS) generation, which aims to generate sets of images that meet various consistency requirements based on user instructions. To systematically study this problem, we first introduce $\textbf{T2IS-Bench}$ with 596 diverse instructions across 26 subcategories, providing comprehensive coverage for T2IS generation. Building on this, we propose $\textbf{T2IS-Eval}$, an evaluation framework that transforms user instructions into multifaceted assessment criteria and employs effective evaluators to adaptively assess consistency fulfillment between criteria and generated sets. Subsequently, we propose $\textbf{AutoT2IS}$, a training-free framework that maximally leverages pretrained Diffusion Transformers' in-context capabilities to harmonize visual elements to satisfy both image-level prompt alignment and set-level visual consistency. Extensive experiments on T2IS-Bench reveal that diverse consistency challenges all existing methods, while our AutoT2IS significantly outperforms current generalized and even specialized approaches. Our method also demonstrates the ability to enable numerous underexplored real-world applications, confirming its substantial practical value. Visit our project in https://chengyou-jia.github.io/T2IS-Home.
- Abstract(参考訳): テキスト・トゥ・イメージ・モデルの顕著な進歩にもかかわらず、多くの現実世界のアプリケーションは、一貫性の異なる一貫性を持った一貫性のあるイメージセットを生成する必要がある。
既存の一貫性のあるメソッドは、一貫性の特定の側面を持つ特定のドメインに焦点を合わせ、より広範なアプリケーションへの一般化可能性を大幅に制限する。
本稿では,ユーザ命令に基づいて,様々な整合性要件を満たす画像の集合を生成することを目的とした,テキスト・ツー・イメージセット(T2IS)生成という,より困難な問題を提案する。
この問題を体系的に研究するために、まず、26のサブカテゴリに596の多様な命令を持つ$\textbf{T2IS-Bench}$を導入し、T2IS生成の包括的カバレッジを提供する。
そこで本稿では,ユーザの指示を多面的評価基準に変換するための評価フレームワークである$\textbf{T2IS-Eval}$を提案し,有効評価器を用いて,基準と生成された集合間の整合性満足度を適応的に評価する。
次に、トレーニング不要なフレームワークである$\textbf{AutoT2IS}$を提案する。これは、トレーニング済みの拡散変換器のコンテキスト内能力を最大限活用し、視覚要素を調和させ、画像レベルのプロンプトアライメントとセットレベルの視覚的整合性の両方を満たす。
T2IS-Benchの大規模な実験では、既存の手法すべてに多様な一貫性が挑戦されているのに対し、AutoT2ISは現在の一般化された、さらには特別なアプローチよりも著しく優れています。
また,本手法は,多くの未探索現実世界の応用を可能にする能力を示し,その実用的価値を実証する。
プロジェクトについては、https://chengyou-jia.github.io/T2IS-Homeを参照してください。
関連論文リスト
- OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation [23.05106664412349]
テキスト・ツー・イメージ(T2I)モデルは、テキスト・プロンプトに整合した高品質な画像を生成する上で大きな注目を集めている。
OneIG-Benchは、T2Iモデルを複数の次元で評価するためのベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-06-09T17:50:21Z) - Draw ALL Your Imagine: A Holistic Benchmark and Agent Framework for Complex Instruction-based Image Generation [9.978181430065987]
LongBench-T2Iは、複雑な命令の下でテキスト・トゥ・イメージ(T2I)モデルを評価するためのベンチマークである。
LongBench-T2Iは9つの視覚的評価次元にまたがる500の複雑なプロンプトで構成されている。
Plan2Genは複雑な命令駆動の画像生成を容易にするフレームワークで、追加のモデルトレーニングを必要としない。
論文 参考訳(メタデータ) (2025-05-30T16:48:14Z) - TF-TI2I: Training-Free Text-and-Image-to-Image Generation via Multi-Modal Implicit-Context Learning in Text-to-Image Models [19.1659725630146]
トレーニングフリーのテキスト・イメージ・トゥ・イメージ(TF-TI2I)は、追加のトレーニングを必要とせずに最先端のT2Iモデルに適応する。
提案手法は,様々なベンチマークにおいて堅牢な性能を示し,複雑な画像生成タスクの処理の有効性を確認した。
論文 参考訳(メタデータ) (2025-03-19T15:03:19Z) - One-Prompt-One-Story: Free-Lunch Consistent Text-to-Image Generation Using a Single Prompt [101.17660804110409]
テキスト画像生成モデルは、入力プロンプトから高品質な画像を生成することができる。
彼らはストーリーテリングのアイデンティティ保存要件の一貫性のある生成をサポートするのに苦労している。
本稿では,一貫したテキスト・画像生成のための新しいトレーニングフリー手法を提案する。
論文 参考訳(メタデータ) (2025-01-23T10:57:22Z) - Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
複数のテキストリッチな画像を含む視覚言語タスクを扱うためのMLLMであるLeopardを提案する。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - T2I-CompBench++: An Enhanced and Comprehensive Benchmark for Compositional Text-to-image Generation [55.16845189272573]
T2I-CompBench++は、合成テキスト・画像生成のための拡張ベンチマークである。
8000のコンポジションテキストプロンプトは、属性バインディング、オブジェクト関係、生成数、複雑なコンポジションの4つのグループに分類される。
論文 参考訳(メタデータ) (2023-07-12T17:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。