論文の概要: On Discrete Prompt Optimization for Diffusion Models
- arxiv url: http://arxiv.org/abs/2407.01606v1
- Date: Thu, 27 Jun 2024 02:53:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 20:02:00.772358
- Title: On Discrete Prompt Optimization for Diffusion Models
- Title(参考訳): 拡散モデルにおける離散プロンプト最適化について
- Authors: Ruochen Wang, Ting Liu, Cho-Jui Hsieh, Boqing Gong,
- Abstract要約: 本稿では,テキストから画像への拡散モデルにおいて,高速な最適化を実現するための第1の勾配ベースフレームワークを提案する。
言語空間上の離散的な最適化問題として,プロンプトエンジニアリングを定式化する。
私たちは、一定のメモリとランタイムで得られるテキスト勾配を効果的に置き換える「ショートカットテキストグラディエント」を導入します。
- 参考スコア(独自算出の注目度): 82.70815321163923
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces the first gradient-based framework for prompt optimization in text-to-image diffusion models. We formulate prompt engineering as a discrete optimization problem over the language space. Two major challenges arise in efficiently finding a solution to this problem: (1) Enormous Domain Space: Setting the domain to the entire language space poses significant difficulty to the optimization process. (2) Text Gradient: Efficiently computing the text gradient is challenging, as it requires backpropagating through the inference steps of the diffusion model and a non-differentiable embedding lookup table. Beyond the problem formulation, our main technical contributions lie in solving the above challenges. First, we design a family of dynamically generated compact subspaces comprised of only the most relevant words to user input, substantially restricting the domain space. Second, we introduce "Shortcut Text Gradient" -- an effective replacement for the text gradient that can be obtained with constant memory and runtime. Empirical evaluation on prompts collected from diverse sources (DiffusionDB, ChatGPT, COCO) suggests that our method can discover prompts that substantially improve (prompt enhancement) or destroy (adversarial attack) the faithfulness of images generated by the text-to-image diffusion model.
- Abstract(参考訳): 本稿では,テキストから画像への拡散モデルにおいて,高速な最適化を実現するための第1の勾配ベースフレームワークを提案する。
言語空間上の離散的な最適化問題として,プロンプトエンジニアリングを定式化する。
1) ドメイン空間: ドメインを言語空間全体に設定することは、最適化プロセスに重大な困難をもたらす。
2) テキストグラディエント: 拡散モデルと非微分可能な埋め込みルックアップテーブルの推論ステップをバックプロパゲートする必要があるため, テキスト勾配の効率的な計算は困難である。
問題の定式化以外にも、当社の主な技術的貢献は、上記の課題の解決にあります。
まず、ユーザ入力に最も関連性の高い単語のみからなる動的に生成されたコンパクトなサブ空間のファミリーを設計し、ドメイン空間を著しく制限する。
第2に、“ショートカットテキストグラディエント”を導入します。これは、一定のメモリとランタイムで取得可能な、テキスト勾配を効果的に置き換えるものです。
多様なソース(DiffusionDB, ChatGPT, COCO)から収集したプロンプトの実証評価により,テキスト・ツー・イメージ拡散モデルにより生成した画像の忠実さを著しく向上させるプロンプト(プロンプトの強化)や破壊(逆アタック)の発見が可能であることが示唆された。
関連論文リスト
- Saliency Guided Optimization of Diffusion Latents [9.237421522280819]
テキスト・ツー・イメージ生成の鍵となるのは、テキスト・ツー・イメージ生成モデルの結果を最適化して、人間の意図やプロンプトに適合するようにする方法である。
これらの手法は、画像を見るとき、人間の視覚系が自然に正常な領域への注意を優先し、少ない領域や非塩分領域を無視するという事実を見落としている。
本稿では、このアライメント課題を効果的かつ効率的に解決するために、潜伏者の衛生指導最適化(SGOOL)を提案する。
論文 参考訳(メタデータ) (2024-10-14T08:12:42Z) - Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。
本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。
提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-06-14T13:16:18Z) - Improving Subject-Driven Image Synthesis with Subject-Agnostic Guidance [62.15866177242207]
主観的条件を構築することにより、与えられた主観的条件と入力テキストプロンプトの両方に整合した出力が得られることを示す。
私たちのアプローチは概念的にはシンプルで、最小限のコード修正しか必要ありませんが、実質的な品質改善につながります。
論文 参考訳(メタデータ) (2024-05-02T15:03:41Z) - Debiasing Text-to-Image Diffusion Models [84.46750441518697]
学習ベースのテキスト・トゥ・イメージ(TTI)モデルは、さまざまなドメインで視覚コンテンツを生成する方法に革命をもたらした。
近年の研究では、現在最先端のTTIシステムに非無視的な社会的バイアスが存在することが示されている。
論文 参考訳(メタデータ) (2024-02-22T14:33:23Z) - Prompting Hard or Hardly Prompting: Prompt Inversion for Text-to-Image
Diffusion Models [46.18013380882767]
この研究は、解釈可能な言語プロンプトを直接得るために拡散モデルを反転させることに焦点を当てている。
拡散過程の異なる時間ステップが、画像の異なる詳細レベルに適合するという知見を活用する。
提案手法は,対象画像に対して意味論的に解釈可能かつ有意義なプロンプトを識別できることを示す。
論文 参考訳(メタデータ) (2023-12-19T18:47:30Z) - Gradient-Free Textual Inversion [34.474779413929426]
プロセス推論モデル推論モデルにのみアクセスすることで、テキストインバージョンを最適化できるかどうかを疑問視するのは自然なことです。
反復的進化戦略において,連続的なテキストの反転を最適化するための進化戦略を導入する。
提案手法を応用したテキスト・画像モデルの性能評価実験を行った。
論文 参考訳(メタデータ) (2023-04-12T12:46:27Z) - High-Fidelity Guided Image Synthesis with Latent Diffusion Models [50.39294302741698]
提案手法は, ユーザ満足度スコアを85.32%以上上回り, 従来の最先端技術よりも優れていた。
人的ユーザ調査の結果、提案手法は、全体のユーザ満足度スコアにおいて、従来の最先端技術よりも85.32%以上優れていたことが示されている。
論文 参考訳(メタデータ) (2022-11-30T15:43:20Z) - PerceptionGAN: Real-world Image Construction from Provided Text through
Perceptual Understanding [11.985768957782641]
本稿では,識別器モジュールに知覚的理解を取り入れ,優れた画像を提供する手法を提案する。
複数の段階で画像分布をモデル化しながら、初期画像に含まれる知覚情報が改善されることを示す。
さらに重要なことに、提案手法は他の最先端のテキストベース画像生成モデルのパイプラインに統合することができる。
論文 参考訳(メタデータ) (2020-07-02T09:23:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。