論文の概要: Promptify: Text-to-Image Generation through Interactive Prompt
Exploration with Large Language Models
- arxiv url: http://arxiv.org/abs/2304.09337v1
- Date: Tue, 18 Apr 2023 22:59:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 15:55:30.541392
- Title: Promptify: Text-to-Image Generation through Interactive Prompt
Exploration with Large Language Models
- Title(参考訳): Promptify:大規模言語モデルを用いた対話型プロンプト探索によるテキスト・画像生成
- Authors: Stephen Brade, Bryan Wang, Mauricio Sousa, Sageev Oore, Tovi Grossman
- Abstract要約: 本稿では,テキスト・ツー・イメージ生成モデルの迅速な探索と改良を支援する対話型システムであるPromptifyを提案する。
本稿では,Promptifyがテキスト・ツー・イメージ・ワークフローを効果的に促進し,テキスト・ツー・イメージ生成に広く使用されている既存のベースライン・ツールより優れていることを示す。
- 参考スコア(独自算出の注目度): 29.057923932305123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image generative models have demonstrated remarkable capabilities in
generating high-quality images based on textual prompts. However, crafting
prompts that accurately capture the user's creative intent remains challenging.
It often involves laborious trial-and-error procedures to ensure that the model
interprets the prompts in alignment with the user's intention. To address the
challenges, we present Promptify, an interactive system that supports prompt
exploration and refinement for text-to-image generative models. Promptify
utilizes a suggestion engine powered by large language models to help users
quickly explore and craft diverse prompts. Our interface allows users to
organize the generated images flexibly, and based on their preferences,
Promptify suggests potential changes to the original prompt. This feedback loop
enables users to iteratively refine their prompts and enhance desired features
while avoiding unwanted ones. Our user study shows that Promptify effectively
facilitates the text-to-image workflow and outperforms an existing baseline
tool widely used for text-to-image generation.
- Abstract(参考訳): テキストから画像への生成モデルは、テキストのプロンプトに基づいて高品質な画像を生成する素晴らしい能力を示している。
しかし、ユーザの創造的意図を正確に捉えるためのプロンプト作成は依然として困難である。
しばしば、モデルがユーザの意図に従ってプロンプトを解釈することを保証するために、厳格な試行錯誤手順を伴います。
そこで本研究では,テキスト対画像生成モデルの迅速な探索と改良を支援する対話型システムprompifyを提案する。
Promptifyは、大きな言語モデルを利用した提案エンジンを利用して、ユーザーが多様なプロンプトを素早く探索し作成するのに役立つ。
我々のインターフェースでは、生成した画像を柔軟に整理することができ、好みに基づいて、Promptifyは元のプロンプトに潜在的な変更を提案する。
このフィードバックループによって、ユーザはプロンプトを反復的に洗練し、望ましくない機能を避けながら、望ましい機能を拡張できる。
ユーザ調査によれば、prompifyifyはテキストから画像へのワークフローを効果的に促進し、テキストから画像への生成に広く使われている既存のベースラインツールよりも優れています。
関連論文リスト
- Prompt Refinement with Image Pivot for Text-to-Image Generation [103.63292948223592]
テキスト・ツー・イメージ生成のための画像Pivot(PRIP)を用いたPrompt Refinementを提案する。
PRIPは精細化処理を2つのデータリッチなタスクに分解する。
これは幅広いベースラインを著しく上回り、ゼロショット方式で見えないシステムに効果的に転送する。
論文 参考訳(メタデータ) (2024-06-28T22:19:24Z) - Empowering Visual Creativity: A Vision-Language Assistant to Image Editing Recommendations [109.65267337037842]
IER(Image Editing Recommendation)の課題を紹介する。
IERは、入力画像から多様なクリエイティブな編集命令を自動生成し、ユーザの未指定の編集目的を表すシンプルなプロンプトを作成することを目的としている。
本稿では,Creative-Vision Language Assistant(Creativity-VLA)を紹介する。
論文 参考訳(メタデータ) (2024-05-31T18:22:29Z) - Dynamic Prompt Optimizing for Text-to-Image Generation [63.775458908172176]
テキストから画像への生成モデルを改善するために,textbfPrompt textbfAuto-textbfEditing (PAE)法を導入する。
我々は、各単語の重みと射出時間ステップを探索するために、オンライン強化学習戦略を採用し、動的微調整プロンプトを導いた。
論文 参考訳(メタデータ) (2024-04-05T13:44:39Z) - PromptCharm: Text-to-Image Generation through Multi-modal Prompting and
Refinement [12.55886762028225]
PromptCharmは,マルチモーダル・プロンプト・エンジニアリングと改良によるテキスト・ツー・イメージ作成を容易にするシステムである。
PromptCharmは、ユーザーの初期プロンプトを自動的に洗練し、最適化する。
大規模なデータベース内で、さまざまなイメージスタイルを探索し、選択するのをサポートする。
モデルの注意値を視覚化することで、モデル説明を描画する。
論文 参考訳(メタデータ) (2024-03-06T19:55:01Z) - A User-Friendly Framework for Generating Model-Preferred Prompts in
Text-to-Image Synthesis [33.71897211776133]
よく設計されたプロンプトは、素晴らしい画像を生成する際にテキストと画像のモデルをガイドする可能性を実証している。
初心者にとっては、手動でプロンプトを入力することで、望ましい結果を達成することは困難である。
本稿では,ユーザ入力プロンプトをモデル優先プロンプトに自動的に変換する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-20T06:58:49Z) - Prompt Expansion for Adaptive Text-to-Image Generation [51.67811570987088]
本稿では,より少ない労力で高品質で多様な画像を生成するためのPrompt Expansionフレームワークを提案する。
Prompt Expansionモデルはテキストクエリを入力として取り、拡張されたテキストプロンプトのセットを出力する。
本研究では,Prompt Expansionにより生成された画像が,ベースライン法により生成された画像よりも美的かつ多様であることを示す人体評価研究を行う。
論文 参考訳(メタデータ) (2023-12-27T21:12:21Z) - NeuroPrompts: An Adaptive Framework to Optimize Prompts for Text-to-Image Generation [4.21512101973222]
NeuroPromptsは、テキスト・ツー・イメージモデルによって生成される世代の品質を改善するためのユーザのプロンプトを強化する適応的なフレームワークである。
我々のフレームワークは,人間のプロンプトエンジニアが生成したようなプロンプトを生成するために,事前訓練された言語モデルを用いて制約付きテキストデコードを利用する。
論文 参考訳(メタデータ) (2023-11-20T22:57:47Z) - PromptMagician: Interactive Prompt Engineering for Text-to-Image
Creation [16.41459454076984]
本研究では,画像の検索結果を探索し,入力プロンプトを洗練させる視覚解析システムであるPromptMagicianを提案する。
システムのバックボーンは、ユーザのプロンプトを入力として取り、DiffusionDBから同様のプロンプトイメージペアを取得し、特別な(重要かつ関連性の高い)プロンプトキーワードを識別するプロンプトレコメンデーションモデルである。
論文 参考訳(メタデータ) (2023-07-18T07:46:25Z) - Hard Prompts Made Easy: Gradient-Based Discrete Optimization for Prompt
Tuning and Discovery [55.905769757007185]
本稿では,効率的な勾配に基づく最適化により,ハードテキストのプロンプトを頑健に最適化する手法について述べる。
本手法は,テキスト・ツー・イメージ・アプリケーションとテキスト・ツー・テキストアプリケーションの両方に対して,ハードテキスト・ベースのプロンプトを自動生成する。
テキストからテキストへの設定では、分類のためのLMのチューニングに有効なハードプロンプトを自動的に発見できることが示される。
論文 参考訳(メタデータ) (2023-02-07T18:40:18Z) - Optimizing Prompts for Text-to-Image Generation [97.61295501273288]
よく設計されたプロンプトは、テキストから画像へのモデルをガイドし、素晴らしい画像を生成する。
しかし、パフォーマンスプロンプトはモデル固有であり、ユーザ入力と不一致であることが多い。
本稿では,モデル優先のプロンプトにオリジナルのユーザ入力を自動的に適応するフレームワークであるpromise adaptを提案する。
論文 参考訳(メタデータ) (2022-12-19T16:50:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。