論文の概要: Progressive Prompt Detailing for Improved Alignment in Text-to-Image Generative Models
- arxiv url: http://arxiv.org/abs/2503.17794v1
- Date: Sat, 22 Mar 2025 15:05:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:38:47.945526
- Title: Progressive Prompt Detailing for Improved Alignment in Text-to-Image Generative Models
- Title(参考訳): テキスト・画像生成モデルにおけるアライメント改善のためのプログレッシブ・プロンプト詳細化
- Authors: Ketan Suhaas Saichandran, Xavier Thomas, Prakhar Kaushik, Deepti Ghadiyaram,
- Abstract要約: SCoPE (Scheduled of Coarse-to-fine Prompt Embeddings) を提案する。
詳細な入力プロンプトが与えられたら、まずそれを複数のサブプロンプトに分解し、広いシーンレイアウトの記述から高度に複雑な詳細へと進化させる。
推論中、これらのサブプロンプト間を補間し、生成した画像によりきめ細かな詳細を徐々に導入する。
- 参考スコア(独自算出の注目度): 7.652370773064737
- License:
- Abstract: Text-to-image generative models often struggle with long prompts detailing complex scenes, diverse objects with distinct visual characteristics and spatial relationships. In this work, we propose SCoPE (Scheduled interpolation of Coarse-to-fine Prompt Embeddings), a training-free method to improve text-to-image alignment by progressively refining the input prompt in a coarse-to-fine-grained manner. Given a detailed input prompt, we first decompose it into multiple sub-prompts which evolve from describing broad scene layout to highly intricate details. During inference, we interpolate between these sub-prompts and thus progressively introduce finer-grained details into the generated image. Our training-free plug-and-play approach significantly enhances prompt alignment, achieves an average improvement of up to +4% in Visual Question Answering (VQA) scores over the Stable Diffusion baselines on 85% of the prompts from the GenAI-Bench dataset.
- Abstract(参考訳): テキスト・ツー・イメージ生成モデルは、複雑なシーン、異なる視覚的特徴と空間的関係を持つ多様なオブジェクトを詳述する長いプロンプトに苦しむことが多い。
本研究では,SCoPE (Scheduled Interpolation of Coarse-to-fine Prompt Embeddings) を提案する。
詳細な入力プロンプトが与えられたら、まずそれを複数のサブプロンプトに分解し、広いシーンレイアウトの記述から高度に複雑な詳細へと進化させる。
推論中、これらのサブプロンプト間を補間し、生成した画像によりきめ細かな詳細を徐々に導入する。
我々のトレーニングフリーなプラグアンドプレイアプローチは、GenAI-Benchデータセットからのインプットの85%に対して、VQA(Visual Question Answering)スコアが安定拡散ベースラインよりも最大で4%向上する、プロンプトアライメントを大幅に向上させる。
関連論文リスト
- Object-level Visual Prompts for Compositional Image Generation [75.6085388740087]
テキストから画像への拡散モデルにおいて,オブジェクトレベルの視覚的プロンプトを構成する手法を提案する。
このタスクにおける重要な課題は、入力された視覚的プロンプトで表現されたオブジェクトのアイデンティティを保持することである。
我々は、キーと値が異なる視覚的表現から学習される新しいKV混合のクロスアテンション機構を導入する。
論文 参考訳(メタデータ) (2025-01-02T18:59:44Z) - CoAPT: Context Attribute words for Prompt Tuning [5.811993982861212]
少数/ゼロショット画像分類のための新しいプロンプトチューニング手法であるCoAPTを提案する。
中心となる動機は、属性は特定の概念に関する豊富な情報を持つ記述的な単語であるということである。
CoAPTは単語を学習可能なプロンプトチューニングに追加のプロンプトとして統合し、既存の様々なプロンプトチューニング手法に簡単に組み込むことができる。
論文 参考訳(メタデータ) (2024-07-18T08:58:01Z) - Compositional Text-to-Image Generation with Dense Blob Representations [48.1976291999674]
既存のテキスト画像モデルは、複雑なテキストプロンプトに従うのに苦労する。
我々は,BlobGENと呼ばれるBlob-grounded text-to-image diffusion modelを合成生成のために開発する。
実験の結果,BlobGENは,MS-COCOにおけるゼロショット生成品質とレイアウト誘導制御性を向上することがわかった。
論文 参考訳(メタデータ) (2024-05-14T00:22:06Z) - Dynamic Prompt Optimizing for Text-to-Image Generation [63.775458908172176]
テキストから画像への生成モデルを改善するために,textbfPrompt textbfAuto-textbfEditing (PAE)法を導入する。
我々は、各単語の重みと射出時間ステップを探索するために、オンライン強化学習戦略を採用し、動的微調整プロンプトを導いた。
論文 参考訳(メタデータ) (2024-04-05T13:44:39Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - Dense Text-to-Image Generation with Attention Modulation [49.287458275920514]
既存のテキストと画像の拡散モデルは、高密度キャプションを与えられた現実的なイメージを合成するのに苦労する。
そこで我々はDenseDiffusionを提案する。DenseDiffusionは、訓練済みのテキスト・ツー・イメージ・モデルを用いて、そのような高密度キャプションを扱う訓練自由な方法である。
レイアウト条件に特化して訓練したモデルを用いて、同様の品質の視覚的結果を得る。
論文 参考訳(メタデータ) (2023-08-24T17:59:01Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - Simultaneous Multiple-Prompt Guided Generation Using Differentiable
Optimal Transport [41.265684813975625]
テキストキューから画像を生成することによって操作するテキスト・ツー・イメージ合成アプローチは、一点を論じる。
本稿では,最適輸送(OT)文献に見られるマッチング手法を用いて,多様なプロンプトを忠実に反映できる画像を提案する。
論文 参考訳(メタデータ) (2022-04-18T03:46:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。