論文の概要: Prompting Hard or Hardly Prompting: Prompt Inversion for Text-to-Image
Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.12416v1
- Date: Tue, 19 Dec 2023 18:47:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 14:26:08.397629
- Title: Prompting Hard or Hardly Prompting: Prompt Inversion for Text-to-Image
Diffusion Models
- Title(参考訳): テキストから画像への拡散モデルのためのプロンプト・インバージョン
- Authors: Shweta Mahajan, Tanzila Rahman, Kwang Moo Yi, Leonid Sigal
- Abstract要約: この研究は、解釈可能な言語プロンプトを直接得るために拡散モデルを反転させることに焦点を当てている。
拡散過程の異なる時間ステップが、画像の異なる詳細レベルに適合するという知見を活用する。
提案手法は,対象画像に対して意味論的に解釈可能かつ有意義なプロンプトを識別できることを示す。
- 参考スコア(独自算出の注目度): 46.18013380882767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quality of the prompts provided to text-to-image diffusion models
determines how faithful the generated content is to the user's intent, often
requiring `prompt engineering'. To harness visual concepts from target images
without prompt engineering, current approaches largely rely on embedding
inversion by optimizing and then mapping them to pseudo-tokens. However,
working with such high-dimensional vector representations is challenging
because they lack semantics and interpretability, and only allow simple vector
operations when using them. Instead, this work focuses on inverting the
diffusion model to obtain interpretable language prompts directly. The
challenge of doing this lies in the fact that the resulting optimization
problem is fundamentally discrete and the space of prompts is exponentially
large; this makes using standard optimization techniques, such as stochastic
gradient descent, difficult. To this end, we utilize a delayed projection
scheme to optimize for prompts representative of the vocabulary space in the
model. Further, we leverage the findings that different timesteps of the
diffusion process cater to different levels of detail in an image. The later,
noisy, timesteps of the forward diffusion process correspond to the semantic
information, and therefore, prompt inversion in this range provides tokens
representative of the image semantics. We show that our approach can identify
semantically interpretable and meaningful prompts for a target image which can
be used to synthesize diverse images with similar content. We further
illustrate the application of the optimized prompts in evolutionary image
generation and concept removal.
- Abstract(参考訳): テキストから画像への拡散モデルに提供されるプロンプトの品質は、生成されたコンテンツがユーザの意図にどれほど忠実であるかを決定する。
ターゲットイメージからの視覚概念をプロンプトエンジニアリングなしで活用するために、現在のアプローチでは、最適化と擬似トケンへのマッピングによるインバージョン埋め込みに大きく依存している。
しかし、そのような高次元ベクトル表現を扱うことは、セマンティクスや解釈可能性に欠けており、それらを使用するときのみ単純なベクトル操作を許すため、難しい。
代わりに、本研究は拡散モデルを反転して解釈可能な言語プロンプトを直接獲得することに焦点を当てている。
これを行う上での課題は、結果として生じる最適化問題は基本的に離散的であり、プロンプトの空間は指数関数的に大きいという事実である。
この目的のために,モデル内の語彙空間を表すプロンプトを最適化するために,遅延プロジェクション方式を用いる。
さらに,拡散過程の異なる時間経過が,画像の様々な詳細レベルに及ぼすという知見を活用する。
後続のノイズ、前方拡散過程の時間ステップは意味情報に対応しており、この範囲での迅速な反転は、画像意味論を表すトークンを提供する。
提案手法は,類似コンテンツを用いた多様な画像の合成に使用できる対象画像に対して,意味論的に解釈可能かつ有意義なプロンプトを識別できることを示す。
さらに,進化的画像生成と概念除去における最適化プロンプトの適用について述べる。
関連論文リスト
- Prefix-diffusion: A Lightweight Diffusion Model for Diverse Image
Captioning [36.4086473737433]
本稿では,プレフィックス拡散(Prefix-diffusion)と呼ばれる,連続拡散を伴う軽量画像キャプションネットワークを提案する。
多様性を実現するために,拡散モデルの復調過程にプレフィックス画像埋め込みを注入する効率的な手法を設計する。
トレーニング可能なパラメータを減らすために,事前学習モデルを用いて画像の特徴を抽出し,さらに余分なマッピングネットワークを設計する。
論文 参考訳(メタデータ) (2023-09-10T08:55:24Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z) - Improving Diffusion-based Image Translation using Asymmetric Gradient
Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。
我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。
実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-07T12:56:56Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - Cap2Aug: Caption guided Image to Image data Augmentation [41.53127698828463]
Cap2Augは、画像キャプションをテキストプロンプトとして使用する画像から画像への拡散モデルに基づくデータ拡張戦略である。
限られた訓練画像からキャプションを生成し,これらのキャプションを用いて画像間安定拡散モデルを用いてトレーニング画像を編集する。
この戦略は、トレーニング画像に似た画像の拡張バージョンを生成するが、サンプル全体にわたって意味的な多様性を提供する。
論文 参考訳(メタデータ) (2022-12-11T04:37:43Z) - High-Fidelity Guided Image Synthesis with Latent Diffusion Models [50.39294302741698]
提案手法は, ユーザ満足度スコアを85.32%以上上回り, 従来の最先端技術よりも優れていた。
人的ユーザ調査の結果、提案手法は、全体のユーザ満足度スコアにおいて、従来の最先端技術よりも85.32%以上優れていたことが示されている。
論文 参考訳(メタデータ) (2022-11-30T15:43:20Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。