論文の概要: PEO: Training-Free Aesthetic Quality Enhancement in Pre-Trained Text-to-Image Diffusion Models with Prompt Embedding Optimization
- arxiv url: http://arxiv.org/abs/2510.02599v1
- Date: Thu, 02 Oct 2025 22:12:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.194798
- Title: PEO: Training-Free Aesthetic Quality Enhancement in Pre-Trained Text-to-Image Diffusion Models with Prompt Embedding Optimization
- Title(参考訳): PEO: プロンプト埋め込み最適化による事前学習型テキスト・画像拡散モデルの学習不要審美性向上
- Authors: Hovhannes Margaryan, Bo Wan, Tinne Tuytelaars,
- Abstract要約: 本稿では,簡単なプロンプトを与えられた場合,事前学習したテキスト・画像拡散モデルにおける審美的品質改善のための新しいアプローチを提案する。
Prompt Embedding Optimization (PEO) と呼ばれる本手法は,事前学習したテキスト・画像拡散モデルをバックボーンとして活用する。
我々は、生成した画像の美的忠実度を改善し、最適化されたテキストの埋め込みを確実にし、初期プロンプトから最小限のばらつきを確保する三部構成の目的関数によりこれを達成した。
- 参考スコア(独自算出の注目度): 42.698386517788606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a novel approach to aesthetic quality improvement in pre-trained text-to-image diffusion models when given a simple prompt. Our method, dubbed Prompt Embedding Optimization (PEO), leverages a pre-trained text-to-image diffusion model as a backbone and optimizes the text embedding of a given simple and uncurated prompt to enhance the visual quality of the generated image. We achieve this by a tripartite objective function that improves the aesthetic fidelity of the generated image, ensures adherence to the optimized text embedding, and minimal divergence from the initial prompt. The latter is accomplished through a prompt preservation term. Additionally, PEO is training-free and backbone-independent. Quantitative and qualitative evaluations confirm the effectiveness of the proposed method, exceeding or equating the performance of state-of-the-art text-to-image and prompt adaptation methods.
- Abstract(参考訳): 本稿では,簡単なプロンプトを与えられた場合,事前学習したテキスト・画像拡散モデルにおける審美的品質改善のための新しいアプローチを提案する。
Prompt Embedding Optimization (PEO) と呼ばれる本手法では,事前学習したテキスト・画像拡散モデルをバックボーンとして活用し,与えられた単純かつ未修正なプロンプトのテキスト埋め込みを最適化し,生成した画像の視覚的品質を向上させる。
我々は、生成した画像の美的忠実度を改善し、最適化されたテキストの埋め込みを確実にし、初期プロンプトから最小限のばらつきを確保する三部構成の目的関数によりこれを達成した。
後者は、即時保存期間を通じて達成される。
さらにPEOはトレーニングなしで、バックボーンに依存しない。
提案手法の有効性を定量的かつ定性的に検証し,最新版テキスト・トゥ・イメージの性能を上回り,迅速な適応手法の有効性を検証した。
関連論文リスト
- Contrastive Learning Guided Latent Diffusion Model for Image-to-Image Translation [7.218556478126324]
拡散モデルはテキスト誘導画像翻訳のための多彩で高品質な画像において優れた性能を示した。
pix2pix-zeroConはゼロショット拡散に基づく手法で、パッチワイドのコントラスト損失を利用して追加のトレーニングを不要にする。
我々のアプローチでは、追加のトレーニングは必要とせず、事前訓練されたテキスト-画像拡散モデルで直接動作する。
論文 参考訳(メタデータ) (2025-03-26T12:15:25Z) - Weak Supervision Dynamic KL-Weighted Diffusion Models Guided by Large Language Models [0.0]
本稿では,大言語モデルと拡散モデルを組み合わせることで,テキスト・画像生成を改善する新しい手法を提案する。
提案手法は, 学習済みLLMから意味的理解を取り入れ, 生成過程の導出を行う。
本手法は,テキスト記述による画像の視覚的品質とアライメントを大幅に改善する。
論文 参考訳(メタデータ) (2025-02-02T15:43:13Z) - Prompt Optimizer of Text-to-Image Diffusion Models for Abstract Concept Understanding [9.787025432074978]
本稿では,Pmpt for Abstract Concepts (POAC)を導入し,テキスト・画像拡散モデルの性能向上を図る。
本稿では,事前学習した言語モデルから算出したPrompt Language Model (PLM)を提案する。
本フレームワークでは, 安定拡散モデルと最適化プロンプトによる画像のアライメントに着目し, 強化学習(RL)に基づく最適化戦略を採用している。
論文 参考訳(メタデータ) (2024-04-17T17:38:56Z) - Dynamic Prompt Optimizing for Text-to-Image Generation [63.775458908172176]
テキストから画像への生成モデルを改善するために,textbfPrompt textbfAuto-textbfEditing (PAE)法を導入する。
我々は、各単語の重みと射出時間ステップを探索するために、オンライン強化学習戦略を採用し、動的微調整プロンプトを導いた。
論文 参考訳(メタデータ) (2024-04-05T13:44:39Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - ReGeneration Learning of Diffusion Models with Rich Prompts for
Zero-Shot Image Translation [8.803251014279502]
大規模なテキスト・ツー・イメージモデルは、多彩で高忠実な画像を合成する素晴らしい能力を示した。
現在のモデルでは、編集プロセス中に元の画像の内容に大きな変更を加えることができる。
画像と画像の拡散モデル(ReDiffuser)における再生学習を提案する。
論文 参考訳(メタデータ) (2023-05-08T12:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。