論文の概要: Optimizing Prompts for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2212.09611v1
- Date: Mon, 19 Dec 2022 16:50:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 14:50:30.547315
- Title: Optimizing Prompts for Text-to-Image Generation
- Title(参考訳): テキストから画像へのプロンプトの最適化
- Authors: Yaru Hao, Zewen Chi, Li Dong, Furu Wei
- Abstract要約: よく設計されたプロンプトは、テキストから画像へのモデルをガイドし、素晴らしい画像を生成する。
しかし、パフォーマンスプロンプトはモデル固有であり、ユーザ入力と不一致であることが多い。
本稿では,モデル優先のプロンプトにオリジナルのユーザ入力を自動的に適応するフレームワークであるpromise adaptを提案する。
- 参考スコア(独自算出の注目度): 91.83920002573643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Well-designed prompts can guide text-to-image models to generate amazing
images. However, the performant prompts are often model-specific and misaligned
with user input. Instead of laborious human engineering, we propose prompt
adaptation, a general framework that automatically adapts original user input
to model-preferred prompts. Specifically, we first perform supervised
fine-tuning with a pretrained language model on a small collection of manually
engineered prompts. Then we use reinforcement learning to explore better
prompts. We define a reward function that encourages the policy to generate
more aesthetically pleasing images while preserving the original user
intentions. Experimental results on Stable Diffusion show that our method
outperforms manual prompt engineering in terms of both automatic metrics and
human preference ratings. Moreover, reinforcement learning further boosts
performance, especially on out-of-domain prompts. The pretrained checkpoints
are available at https://aka.ms/promptist. The demo can be found at
https://aka.ms/promptist-demo.
- Abstract(参考訳): よく設計されたプロンプトは、テキストから画像へのモデルをガイドし、素晴らしい画像を生成する。
しかしながら、パフォーマンスプロンプトはモデル固有であり、ユーザ入力と不一致であることが多い。
本稿では,従来のユーザ入力をモデル優先のプロンプトに自動的に適応する一般的なフレームワークである,プロンプト適応を提案する。
具体的には、手作業によるプロンプトの小さなコレクション上で、事前訓練された言語モデルを用いて教師付き微調整を行う。
その後、強化学習を使用して、より良いプロンプトを探索します。
我々は,本来のユーザ意図を維持しつつ,より美的なイメージを生成するためのポリシーを奨励する報酬関数を定義する。
安定拡散実験の結果,本手法は自動測定値と人選好評価値の両方で手動のプロンプト工学よりも優れていた。
さらに、強化学習は、特にドメイン外のプロンプトのパフォーマンスをさらに向上させる。
事前トレーニングされたチェックポイントはhttps://aka.ms/promptist.comで入手できる。
デモはhttps://aka.ms/promptist-demoで見ることができる。
関連論文リスト
- A User-Friendly Framework for Generating Model-Preferred Prompts in
Text-to-Image Synthesis [33.71897211776133]
よく設計されたプロンプトは、素晴らしい画像を生成する際にテキストと画像のモデルをガイドする可能性を実証している。
初心者にとっては、手動でプロンプトを入力することで、望ましい結果を達成することは困難である。
本稿では,ユーザ入力プロンプトをモデル優先プロンプトに自動的に変換する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-20T06:58:49Z) - Prompt Expansion for Adaptive Text-to-Image Generation [51.67811570987088]
本稿では,より少ない労力で高品質で多様な画像を生成するためのPrompt Expansionフレームワークを提案する。
Prompt Expansionモデルはテキストクエリを入力として取り、拡張されたテキストプロンプトのセットを出力する。
本研究では,Prompt Expansionにより生成された画像が,ベースライン法により生成された画像よりも美的かつ多様であることを示す人体評価研究を行う。
論文 参考訳(メタデータ) (2023-12-27T21:12:21Z) - NeuroPrompts: An Adaptive Framework to Optimize Prompts for
Text-to-Image Generation [4.21512101973222]
NeuroPromptsは、テキスト・ツー・イメージモデルによって生成される世代の品質を改善するためのユーザのプロンプトを強化する適応的なフレームワークである。
我々のフレームワークは,人間のプロンプトエンジニアが生成したようなプロンプトを生成するために,事前訓練された言語モデルを用いて制約付きテキストデコードを利用する。
論文 参考訳(メタデータ) (2023-11-20T22:57:47Z) - BeautifulPrompt: Towards Automatic Prompt Engineering for Text-to-Image
Synthesis [14.852061933308276]
極めて単純な生記述から高品質なプロンプトを生成するための深層生成モデルである BeautifulPrompt を提案する。
私たちの研究では、まず、高品質で高品質な収集プロンプトペアよりも美しいプロンプトモデルを微調整しました。
さらに、より優れたテキスト・ツー・イメージ生成サービスを提供するために、クラウドネイティブなAIプラットフォームへのBeautifulPromptの統合についても紹介します。
論文 参考訳(メタデータ) (2023-11-12T06:39:00Z) - LoGoPrompt: Synthetic Text Images Can Be Good Visual Prompts for
Vision-Language Models [28.983503845298824]
合成テキスト画像は視覚言語モデルにとって良い視覚的プロンプトであることを示す。
視覚的プロンプト選択に分類対象を再構成する LoGoPrompt を提案する。
本手法は,数ショット学習,ベース・ツー・ニュージェネリゼーション,ドメイン・ジェネリゼーションにおいて,最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-09-03T12:23:33Z) - If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based
Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。
大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。
本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文 参考訳(メタデータ) (2023-05-22T17:59:41Z) - Hard Prompts Made Easy: Gradient-Based Discrete Optimization for Prompt
Tuning and Discovery [55.905769757007185]
本稿では,効率的な勾配に基づく最適化により,ハードテキストのプロンプトを頑健に最適化する手法について述べる。
本手法は,テキスト・ツー・イメージ・アプリケーションとテキスト・ツー・テキストアプリケーションの両方に対して,ハードテキスト・ベースのプロンプトを自動生成する。
テキストからテキストへの設定では、分類のためのLMのチューニングに有効なハードプロンプトを自動的に発見できることが示される。
論文 参考訳(メタデータ) (2023-02-07T18:40:18Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z) - Interactive and Visual Prompt Engineering for Ad-hoc Task Adaptation
with Large Language Models [116.25562358482962]
最先端のニューラルネットワークモデルは、教師付きトレーニングを必要とせずに、アドホックな言語タスクを解決するために使用することができる。
PromptIDEを使えば、ユーザはプロンプトのバリエーションを試すことができ、プロンプトのパフォーマンスを視覚化し、反復的にプロンプトを最適化できる。
論文 参考訳(メタデータ) (2022-08-16T17:17:53Z) - Controllable Generation from Pre-trained Language Models via Inverse
Prompting [47.23315683944257]
テキスト生成をよりよく制御する革新的な手法である逆プロンプトを提案する。
逆プロンプトは生成されたテキストを使用してビーム探索中に逆プロンプトを予測する。
その結果,提案手法はベースラインを大きく上回ることがわかった。
論文 参考訳(メタデータ) (2021-03-19T08:36:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。