論文の概要: Manipulating Embeddings of Stable Diffusion Prompts
- arxiv url: http://arxiv.org/abs/2308.12059v2
- Date: Sat, 22 Jun 2024 16:58:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 04:58:37.192637
- Title: Manipulating Embeddings of Stable Diffusion Prompts
- Title(参考訳): 安定拡散噴流のエンベディングの操作
- Authors: Niklas Deckers, Julia Peters, Martin Potthast,
- Abstract要約: 本稿では,プロンプトテキストの代わりにプロンプトの埋め込みを操作する新しい手法を提案し,解析する。
提案手法は退屈度が低く,結果のイメージが好まれることが多い。
- 参考スコア(独自算出の注目度): 22.10069408287608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt engineering is still the primary way for users of generative text-to-image models to manipulate generated images in a targeted way. Based on treating the model as a continuous function and by passing gradients between the image space and the prompt embedding space, we propose and analyze a new method to directly manipulate the embedding of a prompt instead of the prompt text. We then derive three practical interaction tools to support users with image generation: (1) Optimization of a metric defined in the image space that measures, for example, the image style. (2) Supporting a user in creative tasks by allowing them to navigate in the image space along a selection of directions of "near" prompt embeddings. (3) Changing the embedding of the prompt to include information that a user has seen in a particular seed but has difficulty describing in the prompt. Compared to prompt engineering, user-driven prompt embedding manipulation enables a more fine-grained, targeted control that integrates a user's intentions. Our user study shows that our methods are considered less tedious and that the resulting images are often preferred.
- Abstract(参考訳): プロンプトエンジニアリングは、生成した画像をターゲットとして操作する生成テキスト・画像モデルのユーザにとって、依然として主要な方法である。
モデルを連続関数として扱い,画像空間と即時埋め込み空間の勾配を渡すことにより,プロンプトテキストの代わりにプロンプトの埋め込みを直接操作する新しい手法を提案し,解析する。
次に,画像生成を支援するための3つの実践的インタラクションツールを導出する。(1)画像空間で定義されたメトリックの最適化。
2) ユーザを創造的なタスクで支援し, 画像空間内を「近づいた」プロンプト埋め込みの選択方向に沿って移動させることにより, ユーザを創造的タスクで支援する。
(3) ユーザが特定のシードで見た情報を含むようにプロンプトの埋め込みを変更するが、プロンプトでの記述が困難になる。
プロンプトエンジニアリングと比較して、ユーザ主導のプロンプト埋め込み操作は、ユーザの意図を統合する、よりきめ細かなターゲット制御を可能にする。
ユーザスタディでは,我々の手法は退屈さを減らし,結果のイメージが好まれることが示されている。
関連論文リスト
- Prompting Hard or Hardly Prompting: Prompt Inversion for Text-to-Image
Diffusion Models [46.18013380882767]
この研究は、解釈可能な言語プロンプトを直接得るために拡散モデルを反転させることに焦点を当てている。
拡散過程の異なる時間ステップが、画像の異なる詳細レベルに適合するという知見を活用する。
提案手法は,対象画像に対して意味論的に解釈可能かつ有意義なプロンプトを識別できることを示す。
論文 参考訳(メタデータ) (2023-12-19T18:47:30Z) - User-friendly Image Editing with Minimal Text Input: Leveraging
Captioning and Injection Techniques [32.82206298102458]
テキスト駆動画像編集は拡散モデルにおいて顕著な成功を収めた。
既存の手法では、ユーザの記述がソースイメージのコンテキストを十分に基礎づけていると仮定する。
本稿では,素早い生成フレームワークを組み合わせることで,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-06-05T09:09:10Z) - Promptify: Text-to-Image Generation through Interactive Prompt
Exploration with Large Language Models [29.057923932305123]
本稿では,テキスト・ツー・イメージ生成モデルの迅速な探索と改良を支援する対話型システムであるPromptifyを提案する。
本稿では,Promptifyがテキスト・ツー・イメージ・ワークフローを効果的に促進し,テキスト・ツー・イメージ生成に広く使用されている既存のベースライン・ツールより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-18T22:59:11Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - Optimizing Prompts for Text-to-Image Generation [97.61295501273288]
よく設計されたプロンプトは、テキストから画像へのモデルをガイドし、素晴らしい画像を生成する。
しかし、パフォーマンスプロンプトはモデル固有であり、ユーザ入力と不一致であることが多い。
本稿では,モデル優先のプロンプトにオリジナルのユーザ入力を自動的に適応するフレームワークであるpromise adaptを提案する。
論文 参考訳(メタデータ) (2022-12-19T16:50:41Z) - Interactive Image Manipulation with Complex Text Instructions [14.329411711887115]
複雑なテキスト命令を用いてインタラクティブに画像を編集する新しい画像操作法を提案する。
ユーザーは画像操作の精度を向上できるだけでなく、拡大、縮小、オブジェクトの削除といった複雑なタスクも実現できる。
CUB(Caltech-UCSD Birds-200-2011)データセットとMicrosoft Common Objects in Context(MSCOCO)データセットの大規模な実験により、提案手法がリアルタイムにインタラクティブで柔軟で正確な画像操作を可能にすることを示す。
論文 参考訳(メタデータ) (2022-11-25T08:05:52Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z) - Open-Edit: Open-Domain Image Manipulation with Open-Vocabulary
Instructions [66.82547612097194]
そこで我々は,オープンドメイン画像操作のための新しいアルゴリズムOpen-Editを提案する。
本手法は、一般的な画像キャプチャーデータセット上で事前訓練された、統合されたビジュアル・セマンティックな埋め込み空間を利用する。
オープンドメイン画像の様々なシナリオに対して,オープンボキャブラリ色,テクスチャ,高レベル属性の操作に有望な結果を示す。
論文 参考訳(メタデータ) (2020-08-04T14:15:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。