論文の概要: Best Prompts for Text-to-Image Models and How to Find Them
- arxiv url: http://arxiv.org/abs/2209.11711v3
- Date: Thu, 1 Jun 2023 15:13:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-03 01:31:53.874813
- Title: Best Prompts for Text-to-Image Models and How to Find Them
- Title(参考訳): テキストから画像へのモデルのベストプロンプトとその検索方法
- Authors: Nikita Pavlichenko and Dmitry Ustalov
- Abstract要約: 遺伝的アルゴリズムを用いて,最も有用なキーワードの組み合わせを学習する。
このようなアプローチが,同じ記述を描写した画像の美的魅力をいかに向上させるかを示す。
- 参考スコア(独自算出の注目度): 1.9531522349116028
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent progress in generative models, especially in text-guided diffusion
models, has enabled the production of aesthetically-pleasing imagery resembling
the works of professional human artists. However, one has to carefully compose
the textual description, called the prompt, and augment it with a set of
clarifying keywords. Since aesthetics are challenging to evaluate
computationally, human feedback is needed to determine the optimal prompt
formulation and keyword combination. In this paper, we present a
human-in-the-loop approach to learning the most useful combination of prompt
keywords using a genetic algorithm. We also show how such an approach can
improve the aesthetic appeal of images depicting the same descriptions.
- Abstract(参考訳): 生成モデル、特にテキスト誘導拡散モデルにおける最近の進歩は、プロのヒトアーティストの作品に類似した美的なイメージの制作を可能にしている。
しかし、プロンプトと呼ばれるテキスト記述を慎重に作成し、明確なキーワードのセットで拡張する必要がある。
審美学は計算的評価が難しいため、最適な迅速な定式化とキーワードの組み合わせを決定するには人間のフィードバックが必要である。
本稿では,遺伝的アルゴリズムを用いて,命令キーワードの最も有用な組み合わせを学習するための,ループ内の人間的アプローチを提案する。
また,このようなアプローチが,同一の描写を表現した画像の美的魅力をいかに改善するかを示す。
関連論文リスト
- Improving face generation quality and prompt following with synthetic captions [57.47448046728439]
画像から正確な外観記述を生成するために,トレーニング不要のパイプラインを導入する。
次に、これらの合成キャプションを使用して、テキストから画像への拡散モデルを微調整する。
提案手法は,高品質で現実的な人間の顔を生成するモデルの能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-05-17T15:50:53Z) - Dynamic Prompt Optimizing for Text-to-Image Generation [63.775458908172176]
テキストから画像への生成モデルを改善するために,textbfPrompt textbfAuto-textbfEditing (PAE)法を導入する。
我々は、各単語の重みと射出時間ステップを探索するために、オンライン強化学習戦略を採用し、動的微調整プロンプトを導いた。
論文 参考訳(メタデータ) (2024-04-05T13:44:39Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - Prompt Expansion for Adaptive Text-to-Image Generation [51.67811570987088]
本稿では,より少ない労力で高品質で多様な画像を生成するためのPrompt Expansionフレームワークを提案する。
Prompt Expansionモデルはテキストクエリを入力として取り、拡張されたテキストプロンプトのセットを出力する。
本研究では,Prompt Expansionにより生成された画像が,ベースライン法により生成された画像よりも美的かつ多様であることを示す人体評価研究を行う。
論文 参考訳(メタデータ) (2023-12-27T21:12:21Z) - Hypernymy Understanding Evaluation of Text-to-Image Models via WordNet
Hierarchy [12.82992353036576]
我々は、textithypernymy$や単語間の"is-a"関係を理解するために、人気のあるテキスト・画像モデルの有用性を測定する。
私たちのメトリクスが、一般的なテキスト・ツー・イメージモデルの個々の長所と短所をよりよく理解する上で、どのように役立つかを示します。
論文 参考訳(メタデータ) (2023-10-13T16:53:25Z) - PromptMagician: Interactive Prompt Engineering for Text-to-Image
Creation [16.41459454076984]
本研究では,画像の検索結果を探索し,入力プロンプトを洗練させる視覚解析システムであるPromptMagicianを提案する。
システムのバックボーンは、ユーザのプロンプトを入力として取り、DiffusionDBから同様のプロンプトイメージペアを取得し、特別な(重要かつ関連性の高い)プロンプトキーワードを識別するプロンプトレコメンデーションモデルである。
論文 参考訳(メタデータ) (2023-07-18T07:46:25Z) - User-friendly Image Editing with Minimal Text Input: Leveraging
Captioning and Injection Techniques [32.82206298102458]
テキスト駆動画像編集は拡散モデルにおいて顕著な成功を収めた。
既存の手法では、ユーザの記述がソースイメージのコンテキストを十分に基礎づけていると仮定する。
本稿では,素早い生成フレームワークを組み合わせることで,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-06-05T09:09:10Z) - Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image
Diffusion Models [103.61066310897928]
最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。
革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。
本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。
提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
論文 参考訳(メタデータ) (2023-01-31T18:10:38Z) - Language Does More Than Describe: On The Lack Of Figurative Speech in
Text-To-Image Models [63.545146807810305]
テキスト・ツー・イメージ拡散モデルでは、テキスト入力プロンプトから高品質な画像を生成することができる。
これらのモデルは、コンテンツベースのラベル付けプロトコルから収集されたテキストデータを用いて訓練されている。
本研究では,現在使用されているテキスト・画像拡散モデルのトレーニングに使用されている公開テキストデータの感情性,目的性,抽象化の程度を特徴付ける。
論文 参考訳(メタデータ) (2022-10-19T14:20:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。