Fugu-MT 論文翻訳(概要): Why Settle for One? Text-to-ImageSet Generation and Evaluation

論文の概要: Why Settle for One? Text-to-ImageSet Generation and Evaluation

arxiv url: http://arxiv.org/abs/2506.23275v1
Date: Sun, 29 Jun 2025 15:01:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-01 21:27:53.801952
Title: Why Settle for One? Text-to-ImageSet Generation and Evaluation
Title（参考訳）: なぜ落ち着くのか? テキスト・ツー・イメージセットの生成と評価
Authors: Chengyou Jia, Xin Shen, Zhuohang Dang, Zhuohang Dang, Changliang Xia, Weijia Wu, Xinyu Zhang, Hangwei Qian, Ivor W. Tsang, Minnan Luo,
Abstract要約: Text-to-ImageSet (T2IS) の生成は,ユーザ命令に基づいて,さまざまな一貫性要件を満たすイメージセットを生成することを目的としている。トレーニング不要なフレームワークである$textbfAutoT2IS$を提案する。また,本手法は,多くの未探索現実世界の応用を可能にする能力を示し,その実用的価値を実証する。
参考スコア（独自算出の注目度）: 47.63138480571058
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite remarkable progress in Text-to-Image models, many real-world applications require generating coherent image sets with diverse consistency requirements. Existing consistent methods often focus on a specific domain with specific aspects of consistency, which significantly constrains their generalizability to broader applications. In this paper, we propose a more challenging problem, Text-to-ImageSet (T2IS) generation, which aims to generate sets of images that meet various consistency requirements based on user instructions. To systematically study this problem, we first introduce $\textbf{T2IS-Bench}$ with 596 diverse instructions across 26 subcategories, providing comprehensive coverage for T2IS generation. Building on this, we propose $\textbf{T2IS-Eval}$, an evaluation framework that transforms user instructions into multifaceted assessment criteria and employs effective evaluators to adaptively assess consistency fulfillment between criteria and generated sets. Subsequently, we propose $\textbf{AutoT2IS}$, a training-free framework that maximally leverages pretrained Diffusion Transformers' in-context capabilities to harmonize visual elements to satisfy both image-level prompt alignment and set-level visual consistency. Extensive experiments on T2IS-Bench reveal that diverse consistency challenges all existing methods, while our AutoT2IS significantly outperforms current generalized and even specialized approaches. Our method also demonstrates the ability to enable numerous underexplored real-world applications, confirming its substantial practical value. Visit our project in https://chengyou-jia.github.io/T2IS-Home.
Abstract（参考訳）: テキスト・トゥ・イメージ・モデルの顕著な進歩にもかかわらず、多くの現実世界のアプリケーションは、一貫性の異なる一貫性を持った一貫性のあるイメージセットを生成する必要がある。既存の一貫性のあるメソッドは、一貫性の特定の側面を持つ特定のドメインに焦点を合わせ、より広範なアプリケーションへの一般化可能性を大幅に制限する。本稿では,ユーザ命令に基づいて,様々な整合性要件を満たす画像の集合を生成することを目的とした,テキスト・ツー・イメージセット(T2IS)生成という,より困難な問題を提案する。この問題を体系的に研究するために、まず、26のサブカテゴリに596の多様な命令を持つ$\textbf{T2IS-Bench}$を導入し、T2IS生成の包括的カバレッジを提供する。そこで本稿では,ユーザの指示を多面的評価基準に変換するための評価フレームワークである$\textbf{T2IS-Eval}$を提案し,有効評価器を用いて,基準と生成された集合間の整合性満足度を適応的に評価する。次に、トレーニング不要なフレームワークである$\textbf{AutoT2IS}$を提案する。これは、トレーニング済みの拡散変換器のコンテキスト内能力を最大限活用し、視覚要素を調和させ、画像レベルのプロンプトアライメントとセットレベルの視覚的整合性の両方を満たす。 T2IS-Benchの大規模な実験では、既存の手法すべてに多様な一貫性が挑戦されているのに対し、AutoT2ISは現在の一般化された、さらには特別なアプローチよりも著しく優れています。また,本手法は,多くの未探索現実世界の応用を可能にする能力を示し,その実用的価値を実証する。プロジェクトについては、https://chengyou-jia.github.io/T2IS-Homeを参照してください。

関連論文リスト

OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation [23.05106664412349]
テキスト・ツー・イメージ(T2I)モデルは、テキスト・プロンプトに整合した高品質な画像を生成する上で大きな注目を集めている。 OneIG-Benchは、T2Iモデルを複数の次元で評価するためのベンチマークフレームワークである。
論文参考訳（メタデータ） (2025-06-09T17:50:21Z)
TIIF-Bench: How Does Your T2I Model Follow Your Instructions? [7.13169573900556]
本稿では, TIIF-Bench (Text-to-Image Instruction following Benchmark) を提案する。 TIIF-Benchは、複数の次元に沿って組織された5000のプロンプトから構成されており、難易度と複雑さの3つのレベルに分類される。 T2Iモデルのテキスト合成精度と美的コヒーレンスを評価するために,テキストレンダリングとスタイル制御という2つの重要な属性が導入された。
論文参考訳（メタデータ） (2025-06-02T18:44:07Z)
Draw ALL Your Imagine: A Holistic Benchmark and Agent Framework for Complex Instruction-based Image Generation [9.978181430065987]
LongBench-T2Iは、複雑な命令の下でテキスト・トゥ・イメージ(T2I)モデルを評価するためのベンチマークである。 LongBench-T2Iは9つの視覚的評価次元にまたがる500の複雑なプロンプトで構成されている。 Plan2Genは複雑な命令駆動の画像生成を容易にするフレームワークで、追加のモデルトレーニングを必要としない。
論文参考訳（メタデータ） (2025-05-30T16:48:14Z)
Visualized Text-to-Image Retrieval [55.178938325324864]
テキスト・トゥ・イメージ(T2I)検索のための新しいパラダイムである Visualize-then-Retrieve (VisRet) を提案する。 VisRetはまず、T2I生成を介して画像モダリティにテキストクエリを投影する。その後、画像モダリティ内で検索を行い、微妙な視覚空間的特徴を認識するために、クロスモーダルレトリバーの弱点を回避します。
論文参考訳（メタデータ） (2025-05-26T17:59:33Z)
Replace in Translation: Boost Concept Alignment in Counterfactual Text-to-Image [53.09546752700792]
我々は,この代替プロセスを明示論理ナラティブ・プロンプト (ELNP) と呼ぶ方法を提案する。合成画像において,プロンプトに要求される概念を平均的にカバーできる数を計算するための計量を設計する。大規模な実験と定性比較により、我々の戦略が反実的T2Iの概念の整合性を高めることが示される。
論文参考訳（メタデータ） (2025-05-20T13:27:52Z)
TF-TI2I: Training-Free Text-and-Image-to-Image Generation via Multi-Modal Implicit-Context Learning in Text-to-Image Models [19.1659725630146]
トレーニングフリーのテキスト・イメージ・トゥ・イメージ(TF-TI2I)は、追加のトレーニングを必要とせずに最先端のT2Iモデルに適応する。提案手法は,様々なベンチマークにおいて堅牢な性能を示し,複雑な画像生成タスクの処理の有効性を確認した。
論文参考訳（メタデータ） (2025-03-19T15:03:19Z)
MMAIF: Multi-task and Multi-degradation All-in-One for Image Fusion with Language Guidance [11.023241681116295]
本稿では,マルチタスク,マルチデグラデーション,言語誘導画像融合のための統一的なフレームワークを提案する。本フレームワークは,1)実世界の画像劣化をシミュレートし,モデルを誘導するインタラクティブなプロンプトを生成する実用的な劣化パイプライン,2)遅延空間で動作するオールインワントランスフォーマー(DiT)と,劣化した入力と生成されたプロンプトの両方に条件付きクリーンなイメージを融合させる。
論文参考訳（メタデータ） (2025-03-19T07:20:02Z)
One-Prompt-One-Story: Free-Lunch Consistent Text-to-Image Generation Using a Single Prompt [101.17660804110409]
テキスト画像生成モデルは、入力プロンプトから高品質な画像を生成することができる。彼らはストーリーテリングのアイデンティティ保存要件の一貫性のある生成をサポートするのに苦労している。本稿では,一貫したテキスト・画像生成のための新しいトレーニングフリー手法を提案する。
論文参考訳（メタデータ） (2025-01-23T10:57:22Z)
Interleaved Scene Graphs for Interleaved Text-and-Image Generation Assessment [53.45813302866466]
我々は、インターリーブされたテキスト・画像生成のための総合的な評価フレームワークISGを提案する。 ISGは、全体性、構造性、ブロックレベル、画像固有性の4つのレベルで反応を評価する。 ISGと組み合わせて、ISG-Benchというベンチマークを導入し、8つのカテゴリと21のサブカテゴリにわたる1,150のサンプルを網羅した。
論文参考訳（メタデータ） (2024-11-26T07:55:57Z)
Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
複数のテキストリッチな画像を含む視覚言語タスクを扱うためのMLLMであるLeopardを提案する。まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを提案する。
論文参考訳（メタデータ） (2024-10-02T16:55:01Z)
T2I-CompBench++: An Enhanced and Comprehensive Benchmark for Compositional Text-to-image Generation [55.16845189272573]
T2I-CompBench++は、合成テキスト・画像生成のための拡張ベンチマークである。 8000のコンポジションテキストプロンプトは、属性バインディング、オブジェクト関係、生成数、複雑なコンポジションの4つのグループに分類される。
論文参考訳（メタデータ） (2023-07-12T17:59:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。