論文の概要: Reverse Prompt: Cracking the Recipe Inside Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2503.19937v1
- Date: Tue, 25 Mar 2025 02:08:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:22:02.802421
- Title: Reverse Prompt: Cracking the Recipe Inside Text-to-Image Generation
- Title(参考訳): リバース・プロンプト:テキストから画像への生成におけるレシピのクラック
- Authors: Zhiyao Ren, Yibing Zhan, Baosheng Yu, Dacheng Tao,
- Abstract要約: 本稿では,自動リバースプロンプト最適化(ARPO)と呼ばれる手法を提案する。
提案手法では,初期プロンプトを反復的に模倣した勾配最適化プロセスにより高品質なプロンプトに洗練する。
これらの逆プロンプトを直接編集することで、多様なスタイルや内容の新規な画像を容易に作成できる。
- 参考スコア(独自算出の注目度): 87.34490419583558
- License:
- Abstract: Text-to-image generation has become increasingly popular, but achieving the desired images often requires extensive prompt engineering. In this paper, we explore how to decode textual prompts from reference images, a process we refer to as image reverse prompt engineering. This technique enables us to gain insights from reference images, understand the creative processes of great artists, and generate impressive new images. To address this challenge, we propose a method known as automatic reverse prompt optimization (ARPO). Specifically, our method refines an initial prompt into a high-quality prompt through an iteratively imitative gradient prompt optimization process: 1) generating a recreated image from the current prompt to instantiate its guidance capability; 2) producing textual gradients, which are candidate prompts intended to reduce the difference between the recreated image and the reference image; 3) updating the current prompt with textual gradients using a greedy search method to maximize the CLIP similarity between prompt and reference image. We compare ARPO with several baseline methods, including handcrafted techniques, gradient-based prompt tuning methods, image captioning, and data-driven selection method. Both quantitative and qualitative results demonstrate that our ARPO converges quickly to generate high-quality reverse prompts. More importantly, we can easily create novel images with diverse styles and content by directly editing these reverse prompts. Code will be made publicly available.
- Abstract(参考訳): テキスト・ツー・イメージ・ジェネレーションはますます人気を博しているが、望まれる画像を実現するには、広範囲なプロンプト・エンジニアリングが必要であることが多い。
本稿では,参照画像からテキストプロンプトをデコードする方法を検討する。
この技術により、参照画像から洞察を得、偉大なアーティストの創造過程を理解し、印象的な新しい画像を生成することができる。
この課題に対処するため,自動リバースプロンプト最適化(ARPO)と呼ばれる手法を提案する。
具体的には、初期プロンプトを反復的に模倣された勾配プロンプト最適化プロセスにより高品質なプロンプトに洗練する。
1) 現在のプロンプトから再生画像を生成して,誘導能力のインスタンス化
2 再生画像と参照画像との差を小さくすることを意図した候補となるテキスト勾配を作成すること。
3) 現在のプロンプトをテキスト勾配で更新し, プロンプトと参照画像のCLIP類似性を最大化する。
我々はARPOと,手作り技術,勾配に基づくプロンプトチューニング,画像キャプション,データ駆動選択など,いくつかのベースライン手法を比較した。
定量的および定性的な結果は、我々のARPOが迅速に収束し、高品質な逆プロンプトを生成することを示す。
さらに重要なことは、これらの逆プロンプトを直接編集することで、多様なスタイルやコンテンツを持つ新しい画像を簡単に作成できるということです。
コードは公開されます。
関連論文リスト
- Batch-Instructed Gradient for Prompt Evolution:Systematic Prompt Optimization for Enhanced Text-to-Image Synthesis [3.783530340696776]
本研究では,テキスト・画像生成モデルの入力プロンプトを最適化するマルチエージェントフレームワークを提案する。
プロのプロンプトデータベースは、命令修飾子を高精細なプロンプトを生成するためのベンチマークとして機能する。
予備的アブレーション研究は、様々なシステムコンポーネントの有効性を強調し、今後の改善の分野を提案する。
論文 参考訳(メタデータ) (2024-06-13T00:33:29Z) - Dynamic Prompt Optimizing for Text-to-Image Generation [63.775458908172176]
テキストから画像への生成モデルを改善するために,textbfPrompt textbfAuto-textbfEditing (PAE)法を導入する。
我々は、各単語の重みと射出時間ステップを探索するために、オンライン強化学習戦略を採用し、動的微調整プロンプトを導いた。
論文 参考訳(メタデータ) (2024-04-05T13:44:39Z) - Prompt Expansion for Adaptive Text-to-Image Generation [51.67811570987088]
本稿では,より少ない労力で高品質で多様な画像を生成するためのPrompt Expansionフレームワークを提案する。
Prompt Expansionモデルはテキストクエリを入力として取り、拡張されたテキストプロンプトのセットを出力する。
本研究では,Prompt Expansionにより生成された画像が,ベースライン法により生成された画像よりも美的かつ多様であることを示す人体評価研究を行う。
論文 参考訳(メタデータ) (2023-12-27T21:12:21Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Iterative Prompt Learning for Unsupervised Backlit Image Enhancement [86.90993077000789]
そこで本研究では,CLIP-LITと略称される,非教師なしのバックライト画像強調手法を提案する。
オープンワールドのCLIPはバックライト画像と well-lit 画像の区別に有効であることを示す。
提案手法は,学習フレームワークの更新と,学習結果を視覚的に満足するまでのネットワークの強化を交互に行う。
論文 参考訳(メタデータ) (2023-03-30T17:37:14Z) - Hard Prompts Made Easy: Gradient-Based Discrete Optimization for Prompt
Tuning and Discovery [55.905769757007185]
本稿では,効率的な勾配に基づく最適化により,ハードテキストのプロンプトを頑健に最適化する手法について述べる。
本手法は,テキスト・ツー・イメージ・アプリケーションとテキスト・ツー・テキストアプリケーションの両方に対して,ハードテキスト・ベースのプロンプトを自動生成する。
テキストからテキストへの設定では、分類のためのLMのチューニングに有効なハードプロンプトを自動的に発見できることが示される。
論文 参考訳(メタデータ) (2023-02-07T18:40:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。