論文の概要: Manipulating Embeddings of Stable Diffusion Prompts
- arxiv url: http://arxiv.org/abs/2308.12059v1
- Date: Wed, 23 Aug 2023 10:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 14:26:07.112026
- Title: Manipulating Embeddings of Stable Diffusion Prompts
- Title(参考訳): 安定拡散プロンプトの埋め込みを操作する
- Authors: Niklas Deckers, Julia Peters, Martin Potthast
- Abstract要約: 本稿では,プロンプトテキストの代わりに直接プロンプトの埋め込みを変更する手法を提案し,解析する。
提案手法では,生成テキスト・画像モデルを連続関数として扱い,画像空間と即時埋め込み空間の間を通過する。
- 参考スコア(独自算出の注目度): 24.83896533095935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative text-to-image models such as Stable Diffusion allow users to
generate images based on a textual description, the prompt. Changing the prompt
is still the primary means for the user to change a generated image as desired.
However, changing the image by reformulating the prompt remains a difficult
process of trial and error, which has led to the emergence of prompt
engineering as a new field of research. We propose and analyze methods to
change the embedding of a prompt directly instead of the prompt text. It allows
for more fine-grained and targeted control that takes into account user
intentions. Our approach treats the generative text-to-image model as a
continuous function and passes gradients between the image space and the prompt
embedding space. By addressing different user interaction problems, we can
apply this idea in three scenarios: (1) Optimization of a metric defined in
image space that could measure, for example, image style. (2) Assistance of
users in creative tasks by enabling them to navigate the image space along a
selection of directions of "near" prompt embeddings. (3) Changing the embedding
of the prompt to include information that the user has seen in a particular
seed but finds difficult to describe in the prompt. Our experiments demonstrate
the feasibility of the described methods.
- Abstract(参考訳): 安定拡散のような生成的なテキストから画像へのモデルにより、ユーザーはテキスト記述、プロンプトに基づいて画像を生成することができる。
プロンプトを変更することが、ユーザが生成したイメージを必要に応じて変更する主要な手段である。
しかし、プロンプトを再構成してイメージを変更することは、試行錯誤の難しいプロセスであり、新たな研究分野としてのプロンプトエンジニアリングの出現につながった。
我々は,プロンプトテキストの代わりにプロンプトの埋め込みを直接変更する手法を提案し,解析する。
ユーザの意図を考慮に入れた、よりきめ細かい、ターゲットのコントロールが可能になる。
提案手法では,生成テキスト・画像モデルを連続関数として扱い,画像空間と即時埋め込み空間の間の勾配を経る。
異なるユーザインタラクションの問題に対処することにより、このアイデアを3つのシナリオに適用することができる。(1) 画像空間で定義されたメトリックの最適化。
2) "near" プロンプト埋め込みの方向選択に沿って画像空間をナビゲートすることによる,創造的なタスクにおけるユーザの支援。
(3) ユーザが特定のシードで見た情報を含むようにプロンプトの埋め込みを変更することは、プロンプトで記述するのが困難である。
提案手法の有効性を実証する実験を行った。
関連論文リスト
- Prompting Hard or Hardly Prompting: Prompt Inversion for Text-to-Image
Diffusion Models [46.18013380882767]
この研究は、解釈可能な言語プロンプトを直接得るために拡散モデルを反転させることに焦点を当てている。
拡散過程の異なる時間ステップが、画像の異なる詳細レベルに適合するという知見を活用する。
提案手法は,対象画像に対して意味論的に解釈可能かつ有意義なプロンプトを識別できることを示す。
論文 参考訳(メタデータ) (2023-12-19T18:47:30Z) - User-friendly Image Editing with Minimal Text Input: Leveraging
Captioning and Injection Techniques [32.82206298102458]
テキスト駆動画像編集は拡散モデルにおいて顕著な成功を収めた。
既存の手法では、ユーザの記述がソースイメージのコンテキストを十分に基礎づけていると仮定する。
本稿では,素早い生成フレームワークを組み合わせることで,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-06-05T09:09:10Z) - Promptify: Text-to-Image Generation through Interactive Prompt
Exploration with Large Language Models [29.057923932305123]
本稿では,テキスト・ツー・イメージ生成モデルの迅速な探索と改良を支援する対話型システムであるPromptifyを提案する。
本稿では,Promptifyがテキスト・ツー・イメージ・ワークフローを効果的に促進し,テキスト・ツー・イメージ生成に広く使用されている既存のベースライン・ツールより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-18T22:59:11Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - Optimizing Prompts for Text-to-Image Generation [97.61295501273288]
よく設計されたプロンプトは、テキストから画像へのモデルをガイドし、素晴らしい画像を生成する。
しかし、パフォーマンスプロンプトはモデル固有であり、ユーザ入力と不一致であることが多い。
本稿では,モデル優先のプロンプトにオリジナルのユーザ入力を自動的に適応するフレームワークであるpromise adaptを提案する。
論文 参考訳(メタデータ) (2022-12-19T16:50:41Z) - Interactive Image Manipulation with Complex Text Instructions [14.329411711887115]
複雑なテキスト命令を用いてインタラクティブに画像を編集する新しい画像操作法を提案する。
ユーザーは画像操作の精度を向上できるだけでなく、拡大、縮小、オブジェクトの削除といった複雑なタスクも実現できる。
CUB(Caltech-UCSD Birds-200-2011)データセットとMicrosoft Common Objects in Context(MSCOCO)データセットの大規模な実験により、提案手法がリアルタイムにインタラクティブで柔軟で正確な画像操作を可能にすることを示す。
論文 参考訳(メタデータ) (2022-11-25T08:05:52Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z) - Open-Edit: Open-Domain Image Manipulation with Open-Vocabulary
Instructions [66.82547612097194]
そこで我々は,オープンドメイン画像操作のための新しいアルゴリズムOpen-Editを提案する。
本手法は、一般的な画像キャプチャーデータセット上で事前訓練された、統合されたビジュアル・セマンティックな埋め込み空間を利用する。
オープンドメイン画像の様々なシナリオに対して,オープンボキャブラリ色,テクスチャ,高レベル属性の操作に有望な結果を示す。
論文 参考訳(メタデータ) (2020-08-04T14:15:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。