論文の概要: Prompt-Softbox-Prompt: A free-text Embedding Control for Image Editing
- arxiv url: http://arxiv.org/abs/2408.13623v1
- Date: Sat, 24 Aug 2024 16:33:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 18:49:22.086076
- Title: Prompt-Softbox-Prompt: A free-text Embedding Control for Image Editing
- Title(参考訳): Prompt-Softbox-Prompt:画像編集のための自由テキスト埋め込み制御
- Authors: Yitong Yang, Yinglin Wang, Jing Wang, Tian Zhang,
- Abstract要約: テキスト埋め込みの絡み合いと不透明さは、正確な画像編集を実現する上で重要な課題である。
PSP (Prompt-Softbox-Prompt) と呼ばれる自由テキスト埋め込み制御方式を用いた新しい画像編集手法を提案する。
PSPは、クロスアテンション層にテキスト埋め込みを挿入または追加し、Softboxを使用してセマンティックインジェクションの特定の領域を定義し制御することで、正確な画像編集を可能にする。
- 参考スコア(独自算出の注目度): 10.12329842607126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-driven diffusion models have achieved remarkable success in image editing, but a crucial component in these models-text embeddings-has not been fully explored. The entanglement and opacity of text embeddings present significant challenges to achieving precise image editing. In this paper, we provide a comprehensive and in-depth analysis of text embeddings in Stable Diffusion XL, offering three key insights. First, while the 'aug_embedding' captures the full semantic content of the text, its contribution to the final image generation is relatively minor. Second, 'BOS' and 'Padding_embedding' do not contain any semantic information. Lastly, the 'EOS' holds the semantic information of all words and contains the most style features. Each word embedding plays a unique role without interfering with one another. Based on these insights, we propose a novel approach for controllable image editing using a free-text embedding control method called PSP (Prompt-Softbox-Prompt). PSP enables precise image editing by inserting or adding text embeddings within the cross-attention layers and using Softbox to define and control the specific area for semantic injection. This technique allows for obejct additions and replacements while preserving other areas of the image. Additionally, PSP can achieve style transfer by simply replacing text embeddings. Extensive experimental results show that PSP achieves significant results in tasks such as object replacement, object addition, and style transfer.
- Abstract(参考訳): テキスト駆動拡散モデルは画像編集において顕著な成功を収めてきたが、これらのモデルにおいて重要な要素であるテキスト埋め込みは十分に研究されていない。
テキスト埋め込みの絡み合いと不透明さは、正確な画像編集を実現する上で重要な課題である。
本稿では,安定拡散XLにおけるテキスト埋め込みの包括的かつ詳細な解析を行い,三つの重要な知見を提供する。
まず、‘aug_embedding’はテキストの完全なセマンティックコンテンツをキャプチャするが、最終的な画像生成へのコントリビューションは比較的小さい。
第二に 'BOS' と 'Padding_embedding' には意味情報がない。
最後に、"EOS"はすべての単語の意味情報を保持し、最もスタイルのよい特徴を含んでいる。
それぞれの単語の埋め込みは、互いに干渉することなく、ユニークな役割を果たす。
そこで本研究では,PSP(Prompt-Softbox-Prompt)と呼ばれる自由テキスト埋め込み制御手法を用いて,制御可能な画像編集手法を提案する。
PSPは、クロスアテンション層にテキスト埋め込みを挿入または追加し、Softboxを使用してセマンティックインジェクションの特定の領域を定義し制御することで、正確な画像編集を可能にする。
この技術は、画像の他の領域を保存しながら、斜めの追加と置換を可能にする。
さらに、PSPは単にテキスト埋め込みを置き換えることでスタイル転送を実現することができる。
広範囲な実験結果から,PSPはオブジェクト置換,オブジェクト付加,スタイル移動といったタスクにおいて重要な結果をもたらすことが示された。
関連論文リスト
- Latent Space Disentanglement in Diffusion Transformers Enables Precise Zero-shot Semantic Editing [4.948910649137149]
拡散変換器(DiT)は近年,テキスト誘導画像生成において顕著な成功を収めている。
マルチモーダルな情報がこのジョイント空間を集合的に形成し、合成画像のセマンティクスをいかに導くかを示す。
ゼロショットきめ細かい画像編集のための簡易かつ効果的なEncode-Identify-Manipulate (EIM) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-12T21:34:30Z) - DragText: Rethinking Text Embedding in Point-based Image Editing [3.1923251959845214]
拡散モデルにおける入力画像のプログレッシブな編集において,テキスト埋め込みは一定であることを示す。
そこで我々はDragTextを提案する。DragTextはドラッグ処理と同時にテキスト埋め込みを最適化し、修正された画像埋め込みと組み合わせる。
論文 参考訳(メタデータ) (2024-07-25T07:57:55Z) - Diffree: Text-Guided Shape Free Object Inpainting with Diffusion Model [81.96954332787655]
テキスト制御のみによるテキスト誘導オブジェクトの追加を容易にするテキスト・ツー・イメージ(T2I)モデルであるDiffreeを紹介する。
実験では、Diffreeはバックグラウンドの一貫性、空間、オブジェクトの関連性、品質を維持しながら、高い成功率を持つ新しいオブジェクトを追加します。
論文 参考訳(メタデータ) (2024-07-24T03:58:58Z) - DM-Align: Leveraging the Power of Natural Language Instructions to Make Changes to Images [55.546024767130994]
本稿では,画像のどの部分を変更するか,保存するかを明確に推論することで,画像エディタのテキストベースの制御を強化する新しいモデルを提案する。
元のソースイメージの記述と必要な更新を反映する命令と入力イメージとの間の単語アライメントに依存する。
Bisonデータセットのサブセットと、Dreamと呼ばれる自己定義データセットで評価される。
論文 参考訳(メタデータ) (2024-04-27T22:45:47Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z) - One Model to Edit Them All: Free-Form Text-Driven Image Manipulation
with Semantic Modulations [75.81725681546071]
Free-Form CLIPは、ある操作モデルがフリーフォームのテキストプロンプトを処理するように、自動ラテントマッピングを確立することを目的としている。
1種類の画像(例えば人間の肖像画)に対して、1つのFFCLIPモデルは自由形式のテキストプロンプトを扱うために学習することができる。
視覚的および数値的な結果は、FFCLIPが意味的に正確で視覚的にリアルなイメージを効果的に生成することを示している。
論文 参考訳(メタデータ) (2022-10-14T15:06:05Z) - Prompt-to-Prompt Image Editing with Cross Attention Control [41.26939787978142]
本稿では,テキストのみによる編集を行う直感的なプロンプト・プロンプト編集フレームワークを提案する。
様々な画像やプロンプトに対して結果を示し、高品質な合成と忠実さを編集されたプロンプトに示す。
論文 参考訳(メタデータ) (2022-08-02T17:55:41Z) - ManiTrans: Entity-Level Text-Guided Image Manipulation via Token-wise
Semantic Alignment and Generation [97.36550187238177]
実世界の実体レベルにおけるテキスト誘導画像操作に関する新しい課題について検討する。
このタスクは、(1)テキスト記述と整合したエンティティを編集すること、(2)テキスト関連領域を保存すること、(3)操作されたエンティティを自然に画像にマージすること、の3つの基本的な要件を課している。
本フレームワークでは,操作対象の画像領域を特定するためのセマンティックアライメントモジュールと,視覚と言語の関係の整合を支援するセマンティックアライメントモジュールを備えている。
論文 参考訳(メタデータ) (2022-04-09T09:01:19Z) - FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。
まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。
我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文 参考訳(メタデータ) (2022-03-09T13:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。