論文の概要: Prompt-Softbox-Prompt: A Free-Text Embedding Control for Image Editing
- arxiv url: http://arxiv.org/abs/2408.13623v3
- Date: Sat, 09 Aug 2025 15:59:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.073423
- Title: Prompt-Softbox-Prompt: A Free-Text Embedding Control for Image Editing
- Title(参考訳): Prompt-Softbox-Prompt:画像編集のための自由テキスト埋め込み制御
- Authors: Yitong Yang, Yinglin Wang, Tian Zhang, Jing Wang, Shuting He,
- Abstract要約: PSP(textbfPrompt-textbfSoftbox-textbfPrompt)を提案する。
PSPは、テキストの埋め込みをクロスアテンション層に修正し、Softboxを使ってセマンティックインジェクションの特定の領域を制御することで、正確な画像編集を可能にする。
- 参考スコア(独自算出の注目度): 12.653220406105346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While text-driven diffusion models demonstrate remarkable performance in image editing, the critical components of their text embeddings remain underexplored. The ambiguity and entanglement of these embeddings pose challenges for precise editing. In this paper, we provide a comprehensive analysis of text embeddings in Stable Diffusion XL, offering three key insights: (1) \textit{aug embedding}~\footnote{\textit{aug embedding} is obtained by combining the pooled output of the final text encoder with the timestep embeddings. https://github.com/huggingface/diffusers} retains complete textual semantics but contributes minimally to image generation as it is only fused via the ResBlocks. More text information weakens its local semantics while preserving most global semantics. (2) \textit{BOS} and \textit{padding embedding} do not contain any semantic information. (3) \textit{EOS} holds the semantic information of all words and stylistic information. Each word embedding is important and does not interfere with the semantic injection of other embeddings. Based on these insights, we propose PSP (\textbf{P}rompt-\textbf{S}oftbox-\textbf{P}rompt), a training-free image editing method that leverages free-text embedding. PSP enables precise image editing by modifying text embeddings within the cross-attention layers and using Softbox to control the specific area for semantic injection. This technique enables the addition and replacement of objects without affecting other areas of the image. Additionally, PSP can achieve style transfer by simply replacing text embeddings. Extensive experiments show that PSP performs remarkably well in tasks such as object replacement, object addition, and style transfer. Our code is available at https://github.com/yangyt46/PSP.
- Abstract(参考訳): テキスト駆動拡散モデルは画像編集において顕著な性能を示すが、それらのテキスト埋め込みの重要な要素はいまだ探索されていない。
これらの埋め込みの曖昧さと絡み合いは正確な編集に挑戦する。
本稿では,(1) \textit{aug embeddedding}~\footnote{\textit{aug embeddedding}を最終テキストエンコーダのプール出力とタイムステップ埋め込みを組み合わせることで,安定拡散XLにおけるテキスト埋め込みの包括的解析を行う。
https://github.com/huggingface/diffusers} は完全なテキストセマンティクスを保持するが、ResBlocksを通じてのみ融合されるため、画像生成に最小限の貢献をする。
より多くのテキスト情報は、ほとんどのグローバルなセマンティクスを保持しながら、その局所的なセマンティクスを弱める。
2) \textit{BOS} と \textit{padding embedding} には意味情報がない。
(3) \textit{EOS} はすべての単語の意味情報とスタイル情報を保持する。
各単語の埋め込みは重要であり、他の埋め込みのセマンティックインジェクションに干渉しない。
これらの知見に基づき,自由テキスト埋め込みを利用した学習自由な画像編集手法であるPSP(\textbf{P}rompt-\textbf{S}oftbox-\textbf{P}rompt)を提案する。
PSPは、テキストの埋め込みをクロスアテンション層に修正し、Softboxを使ってセマンティックインジェクションの特定の領域を制御することで、正確な画像編集を可能にする。
この技術は、画像の他の領域に影響を与えることなく、オブジェクトの追加と置換を可能にする。
さらに、PSPは単にテキスト埋め込みを置き換えることでスタイル転送を実現することができる。
広範囲にわたる実験により、PSPはオブジェクト置換、オブジェクトの追加、スタイル転送といったタスクにおいて極めてよく機能することが示された。
私たちのコードはhttps://github.com/yangyt46/PSP.comで利用可能です。
関連論文リスト
- Latent Space Disentanglement in Diffusion Transformers Enables Precise Zero-shot Semantic Editing [4.948910649137149]
拡散変換器(DiT)は近年,テキスト誘導画像生成において顕著な成功を収めている。
マルチモーダルな情報がこのジョイント空間を集合的に形成し、合成画像のセマンティクスをいかに導くかを示す。
ゼロショットきめ細かい画像編集のための簡易かつ効果的なEncode-Identify-Manipulate (EIM) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-12T21:34:30Z) - DragText: Rethinking Text Embedding in Point-based Image Editing [3.1923251959845214]
拡散モデルにおける入力画像のプログレッシブな編集において,テキスト埋め込みは一定であることを示す。
そこで我々はDragTextを提案する。DragTextはドラッグ処理と同時にテキスト埋め込みを最適化し、修正された画像埋め込みと組み合わせる。
論文 参考訳(メタデータ) (2024-07-25T07:57:55Z) - Diffree: Text-Guided Shape Free Object Inpainting with Diffusion Model [81.96954332787655]
テキスト制御のみによるテキスト誘導オブジェクトの追加を容易にするテキスト・ツー・イメージ(T2I)モデルであるDiffreeを紹介する。
実験では、Diffreeはバックグラウンドの一貫性、空間、オブジェクトの関連性、品質を維持しながら、高い成功率を持つ新しいオブジェクトを追加します。
論文 参考訳(メタデータ) (2024-07-24T03:58:58Z) - DM-Align: Leveraging the Power of Natural Language Instructions to Make Changes to Images [55.546024767130994]
本稿では,画像のどの部分を変更するか,保存するかを明確に推論することで,画像エディタのテキストベースの制御を強化する新しいモデルを提案する。
元のソースイメージの記述と必要な更新を反映する命令と入力イメージとの間の単語アライメントに依存する。
Bisonデータセットのサブセットと、Dreamと呼ばれる自己定義データセットで評価される。
論文 参考訳(メタデータ) (2024-04-27T22:45:47Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z) - One Model to Edit Them All: Free-Form Text-Driven Image Manipulation
with Semantic Modulations [75.81725681546071]
Free-Form CLIPは、ある操作モデルがフリーフォームのテキストプロンプトを処理するように、自動ラテントマッピングを確立することを目的としている。
1種類の画像(例えば人間の肖像画)に対して、1つのFFCLIPモデルは自由形式のテキストプロンプトを扱うために学習することができる。
視覚的および数値的な結果は、FFCLIPが意味的に正確で視覚的にリアルなイメージを効果的に生成することを示している。
論文 参考訳(メタデータ) (2022-10-14T15:06:05Z) - Prompt-to-Prompt Image Editing with Cross Attention Control [41.26939787978142]
本稿では,テキストのみによる編集を行う直感的なプロンプト・プロンプト編集フレームワークを提案する。
様々な画像やプロンプトに対して結果を示し、高品質な合成と忠実さを編集されたプロンプトに示す。
論文 参考訳(メタデータ) (2022-08-02T17:55:41Z) - ManiTrans: Entity-Level Text-Guided Image Manipulation via Token-wise
Semantic Alignment and Generation [97.36550187238177]
実世界の実体レベルにおけるテキスト誘導画像操作に関する新しい課題について検討する。
このタスクは、(1)テキスト記述と整合したエンティティを編集すること、(2)テキスト関連領域を保存すること、(3)操作されたエンティティを自然に画像にマージすること、の3つの基本的な要件を課している。
本フレームワークでは,操作対象の画像領域を特定するためのセマンティックアライメントモジュールと,視覚と言語の関係の整合を支援するセマンティックアライメントモジュールを備えている。
論文 参考訳(メタデータ) (2022-04-09T09:01:19Z) - FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。
まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。
我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文 参考訳(メタデータ) (2022-03-09T13:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。