論文の概要: BeautifulPrompt: Towards Automatic Prompt Engineering for Text-to-Image
Synthesis
- arxiv url: http://arxiv.org/abs/2311.06752v1
- Date: Sun, 12 Nov 2023 06:39:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 17:06:12.218220
- Title: BeautifulPrompt: Towards Automatic Prompt Engineering for Text-to-Image
Synthesis
- Title(参考訳): beautifulprompt:テキストから画像への合成のための自動プロンプトエンジニアリング
- Authors: Tingfeng Cao, Chengyu Wang, Bingyan Liu, Ziheng Wu, Jinhui Zhu, Jun
Huang
- Abstract要約: 極めて単純な生記述から高品質なプロンプトを生成するための深層生成モデルである BeautifulPrompt を提案する。
私たちの研究では、まず、高品質で高品質な収集プロンプトペアよりも美しいプロンプトモデルを微調整しました。
さらに、より優れたテキスト・ツー・イメージ生成サービスを提供するために、クラウドネイティブなAIプラットフォームへのBeautifulPromptの統合についても紹介します。
- 参考スコア(独自算出の注目度): 14.852061933308276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, diffusion-based deep generative models (e.g., Stable Diffusion)
have shown impressive results in text-to-image synthesis. However, current
text-to-image models often require multiple passes of prompt engineering by
humans in order to produce satisfactory results for real-world applications. We
propose BeautifulPrompt, a deep generative model to produce high-quality
prompts from very simple raw descriptions, which enables diffusion-based models
to generate more beautiful images. In our work, we first fine-tuned the
BeautifulPrompt model over low-quality and high-quality collecting prompt
pairs. Then, to ensure that our generated prompts can generate more beautiful
images, we further propose a Reinforcement Learning with Visual AI Feedback
technique to fine-tune our model to maximize the reward values of the generated
prompts, where the reward values are calculated based on the PickScore and the
Aesthetic Scores. Our results demonstrate that learning from visual AI feedback
promises the potential to improve the quality of generated prompts and images
significantly. We further showcase the integration of BeautifulPrompt to a
cloud-native AI platform to provide better text-to-image generation service in
the cloud.
- Abstract(参考訳): 近年、拡散に基づく深層生成モデル(例えば、安定拡散)は、テキスト・画像合成において顕著な結果を示している。
しかし、現在のテキストから画像へのモデルは、現実世界のアプリケーションで満足のいく結果を生み出すために、人間によるプロンプトエンジニアリングの複数のパスを必要とすることが多い。
beautifulpromptは、非常に単純な生記述から高品質なプロンプトを生成するための深層生成モデルであり、拡散ベースのモデルによりより美しい画像を生成することができる。
私たちの研究で最初にbeautifulpromptモデルを、低品質で高品質な収集プロンプトペアに微調整しました。
次に、生成したプロンプトがより美しい画像を生成することを保証するため、生成したプロンプトの報酬値を最大化するために、Visual AI Feedback技術を用いた強化学習を提案し、PickScoreとAesthetic Scoresに基づいて報酬値を計算した。
その結果,視覚的なAIフィードバックから学習することで,生成したプロンプトや画像の品質を大幅に向上する可能性が示唆された。
さらに、クラウドネイティブなAIプラットフォームにBeautifulPromptを統合することで、より優れたテキスト-画像生成サービスをクラウドに提供しています。
関連論文リスト
- Batch-Instructed Gradient for Prompt Evolution:Systematic Prompt Optimization for Enhanced Text-to-Image Synthesis [3.783530340696776]
本研究では,テキスト・画像生成モデルの入力プロンプトを最適化するマルチエージェントフレームワークを提案する。
プロのプロンプトデータベースは、命令修飾子を高精細なプロンプトを生成するためのベンチマークとして機能する。
予備的アブレーション研究は、様々なシステムコンポーネントの有効性を強調し、今後の改善の分野を提案する。
論文 参考訳(メタデータ) (2024-06-13T00:33:29Z) - Dynamic Prompt Optimizing for Text-to-Image Generation [63.775458908172176]
テキストから画像への生成モデルを改善するために,textbfPrompt textbfAuto-textbfEditing (PAE)法を導入する。
我々は、各単語の重みと射出時間ステップを探索するために、オンライン強化学習戦略を採用し、動的微調整プロンプトを導いた。
論文 参考訳(メタデータ) (2024-04-05T13:44:39Z) - A User-Friendly Framework for Generating Model-Preferred Prompts in
Text-to-Image Synthesis [33.71897211776133]
よく設計されたプロンプトは、素晴らしい画像を生成する際にテキストと画像のモデルをガイドする可能性を実証している。
初心者にとっては、手動でプロンプトを入力することで、望ましい結果を達成することは困難である。
本稿では,ユーザ入力プロンプトをモデル優先プロンプトに自動的に変換する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-20T06:58:49Z) - Prompt Expansion for Adaptive Text-to-Image Generation [51.67811570987088]
本稿では,より少ない労力で高品質で多様な画像を生成するためのPrompt Expansionフレームワークを提案する。
Prompt Expansionモデルはテキストクエリを入力として取り、拡張されたテキストプロンプトのセットを出力する。
本研究では,Prompt Expansionにより生成された画像が,ベースライン法により生成された画像よりも美的かつ多様であることを示す人体評価研究を行う。
論文 参考訳(メタデータ) (2023-12-27T21:12:21Z) - NeuroPrompts: An Adaptive Framework to Optimize Prompts for Text-to-Image Generation [4.21512101973222]
NeuroPromptsは、テキスト・ツー・イメージモデルによって生成される世代の品質を改善するためのユーザのプロンプトを強化する適応的なフレームワークである。
我々のフレームワークは,人間のプロンプトエンジニアが生成したようなプロンプトを生成するために,事前訓練された言語モデルを用いて制約付きテキストデコードを利用する。
論文 参考訳(メタデータ) (2023-11-20T22:57:47Z) - ITI-GEN: Inclusive Text-to-Image Generation [56.72212367905351]
本研究では,人書きプロンプトに基づいて画像を生成する包括的テキスト・画像生成モデルについて検討する。
いくつかの属性に対して、画像はテキストよりも概念を表現的に表現できることを示す。
Inclusive Text-to- Image GENeration に容易に利用可能な参照画像を活用する新しいアプローチ ITI-GEN を提案する。
論文 参考訳(メタデータ) (2023-09-11T15:54:30Z) - Reverse Stable Diffusion: What prompt was used to generate this image? [80.82832715884597]
生成拡散モデルにより生成された画像からテキストプロンプトを予測する新しいタスクを導入する。
本稿では,複数ラベルの語彙分類を目的とし,協調的即時回帰と複数ラベルの語彙分類からなる新しい学習フレームワークを提案する。
我々はDiffusionDBデータセットの実験を行い、安定拡散によって生成された画像からテキストプロンプトを予測する。
論文 参考訳(メタデータ) (2023-08-02T23:39:29Z) - Image Captions are Natural Prompts for Text-to-Image Models [70.30915140413383]
本研究では,合成データの学習効果とプロンプトによる合成データ分布の関係を解析した。
本稿では,テキストから画像への生成モデルにより,より情報的で多様な学習データを合成する簡易かつ効果的な手法を提案する。
本手法は,合成学習データに基づいて訓練したモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-07-17T14:38:11Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。