論文の概要: Prompt-Softbox-Prompt: A Free-Text Embedding Control for Image Editing
- arxiv url: http://arxiv.org/abs/2408.13623v3
- Date: Sat, 09 Aug 2025 15:59:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.073423
- Title: Prompt-Softbox-Prompt: A Free-Text Embedding Control for Image Editing
- Title(参考訳): Prompt-Softbox-Prompt:画像編集のための自由テキスト埋め込み制御
- Authors: Yitong Yang, Yinglin Wang, Tian Zhang, Jing Wang, Shuting He,
- Abstract要約: PSP(textbfPrompt-textbfSoftbox-textbfPrompt)を提案する。
PSPは、テキストの埋め込みをクロスアテンション層に修正し、Softboxを使ってセマンティックインジェクションの特定の領域を制御することで、正確な画像編集を可能にする。
- 参考スコア(独自算出の注目度): 12.653220406105346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While text-driven diffusion models demonstrate remarkable performance in image editing, the critical components of their text embeddings remain underexplored. The ambiguity and entanglement of these embeddings pose challenges for precise editing. In this paper, we provide a comprehensive analysis of text embeddings in Stable Diffusion XL, offering three key insights: (1) \textit{aug embedding}~\footnote{\textit{aug embedding} is obtained by combining the pooled output of the final text encoder with the timestep embeddings. https://github.com/huggingface/diffusers} retains complete textual semantics but contributes minimally to image generation as it is only fused via the ResBlocks. More text information weakens its local semantics while preserving most global semantics. (2) \textit{BOS} and \textit{padding embedding} do not contain any semantic information. (3) \textit{EOS} holds the semantic information of all words and stylistic information. Each word embedding is important and does not interfere with the semantic injection of other embeddings. Based on these insights, we propose PSP (\textbf{P}rompt-\textbf{S}oftbox-\textbf{P}rompt), a training-free image editing method that leverages free-text embedding. PSP enables precise image editing by modifying text embeddings within the cross-attention layers and using Softbox to control the specific area for semantic injection. This technique enables the addition and replacement of objects without affecting other areas of the image. Additionally, PSP can achieve style transfer by simply replacing text embeddings. Extensive experiments show that PSP performs remarkably well in tasks such as object replacement, object addition, and style transfer. Our code is available at https://github.com/yangyt46/PSP.
- Abstract(参考訳): テキスト駆動拡散モデルは画像編集において顕著な性能を示すが、それらのテキスト埋め込みの重要な要素はいまだ探索されていない。
これらの埋め込みの曖昧さと絡み合いは正確な編集に挑戦する。
本稿では,(1) \textit{aug embeddedding}~\footnote{\textit{aug embeddedding}を最終テキストエンコーダのプール出力とタイムステップ埋め込みを組み合わせることで,安定拡散XLにおけるテキスト埋め込みの包括的解析を行う。
https://github.com/huggingface/diffusers} は完全なテキストセマンティクスを保持するが、ResBlocksを通じてのみ融合されるため、画像生成に最小限の貢献をする。
より多くのテキスト情報は、ほとんどのグローバルなセマンティクスを保持しながら、その局所的なセマンティクスを弱める。
2) \textit{BOS} と \textit{padding embedding} には意味情報がない。
(3) \textit{EOS} はすべての単語の意味情報とスタイル情報を保持する。
各単語の埋め込みは重要であり、他の埋め込みのセマンティックインジェクションに干渉しない。
これらの知見に基づき,自由テキスト埋め込みを利用した学習自由な画像編集手法であるPSP(\textbf{P}rompt-\textbf{S}oftbox-\textbf{P}rompt)を提案する。
PSPは、テキストの埋め込みをクロスアテンション層に修正し、Softboxを使ってセマンティックインジェクションの特定の領域を制御することで、正確な画像編集を可能にする。
この技術は、画像の他の領域に影響を与えることなく、オブジェクトの追加と置換を可能にする。
さらに、PSPは単にテキスト埋め込みを置き換えることでスタイル転送を実現することができる。
広範囲にわたる実験により、PSPはオブジェクト置換、オブジェクトの追加、スタイル転送といったタスクにおいて極めてよく機能することが示された。
私たちのコードはhttps://github.com/yangyt46/PSP.comで利用可能です。
関連論文リスト
- OmniText: A Training-Free Generalist for Controllable Text-Image Manipulation [34.080740212072655]
我々は、幅広いテキスト画像操作タスクを実行できる訓練不要のジェネラリストであるOmniTextを提案する。
具体的には,テキストの削除を可能にするクロスアテンション機構とセルフアテンション機構の2つの重要な特性について検討する。
多様なTIMタスクを評価するためのベンチマークデータセットであるOmniText-Benchを提案する。
論文 参考訳(メタデータ) (2025-10-28T06:06:52Z) - SAEdit: Token-level control for continuous image editing via Sparse AutoEncoder [52.754326452329956]
本稿では,テキスト埋め込みのトークンレベルの操作を通じて,アンタングルと連続的な編集を行う手法を提案する。
編集は、対象属性の強度を制御する、慎重に選択された方向に沿って埋め込みを操作することで行われる。
本手法は,拡散過程を変更せずにテキスト埋め込みを直接操作し,画像のバックボーンに広く適用可能な,非依存なモデルとする。
論文 参考訳(メタデータ) (2025-10-06T17:51:04Z) - Addressing Text Embedding Leakage in Diffusion-based Image Editing [33.1686050396517]
本稿では属性リークに対処するフレームワークであるAttribute-Leakage-free Editing (ALE)を紹介する。
ALEは、オブジェクト制限埋め込み(ORE)とテキスト埋め込みのアンタングル、空間的に正確に注意を向けるRGB-CAM(Regional-Guided Blending for Cross-Attention Masking)、非編集コンテンツを保存するためにバックグラウンドブレンディング(Backside Blending)を組み合わせる。
論文 参考訳(メタデータ) (2024-12-06T02:10:07Z) - Latent Space Disentanglement in Diffusion Transformers Enables Precise Zero-shot Semantic Editing [4.948910649137149]
拡散変換器(DiT)は近年,テキスト誘導画像生成において顕著な成功を収めている。
マルチモーダルな情報がこのジョイント空間を集合的に形成し、合成画像のセマンティクスをいかに導くかを示す。
ゼロショットきめ細かい画像編集のための簡易かつ効果的なEncode-Identify-Manipulate (EIM) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-12T21:34:30Z) - DragText: Rethinking Text Embedding in Point-based Image Editing [3.1923251959845214]
拡散モデルにおける入力画像のプログレッシブな編集において,テキスト埋め込みは一定であることを示す。
そこで我々はDragTextを提案する。DragTextはドラッグ処理と同時にテキスト埋め込みを最適化し、修正された画像埋め込みと組み合わせる。
論文 参考訳(メタデータ) (2024-07-25T07:57:55Z) - Diffree: Text-Guided Shape Free Object Inpainting with Diffusion Model [81.96954332787655]
テキスト制御のみによるテキスト誘導オブジェクトの追加を容易にするテキスト・ツー・イメージ(T2I)モデルであるDiffreeを紹介する。
実験では、Diffreeはバックグラウンドの一貫性、空間、オブジェクトの関連性、品質を維持しながら、高い成功率を持つ新しいオブジェクトを追加します。
論文 参考訳(メタデータ) (2024-07-24T03:58:58Z) - DM-Align: Leveraging the Power of Natural Language Instructions to Make Changes to Images [55.546024767130994]
本稿では,画像のどの部分を変更するか,保存するかを明確に推論することで,画像エディタのテキストベースの制御を強化する新しいモデルを提案する。
元のソースイメージの記述と必要な更新を反映する命令と入力イメージとの間の単語アライメントに依存する。
Bisonデータセットのサブセットと、Dreamと呼ばれる自己定義データセットで評価される。
論文 参考訳(メタデータ) (2024-04-27T22:45:47Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z) - One Model to Edit Them All: Free-Form Text-Driven Image Manipulation
with Semantic Modulations [75.81725681546071]
Free-Form CLIPは、ある操作モデルがフリーフォームのテキストプロンプトを処理するように、自動ラテントマッピングを確立することを目的としている。
1種類の画像(例えば人間の肖像画)に対して、1つのFFCLIPモデルは自由形式のテキストプロンプトを扱うために学習することができる。
視覚的および数値的な結果は、FFCLIPが意味的に正確で視覚的にリアルなイメージを効果的に生成することを示している。
論文 参考訳(メタデータ) (2022-10-14T15:06:05Z) - Prompt-to-Prompt Image Editing with Cross Attention Control [41.26939787978142]
本稿では,テキストのみによる編集を行う直感的なプロンプト・プロンプト編集フレームワークを提案する。
様々な画像やプロンプトに対して結果を示し、高品質な合成と忠実さを編集されたプロンプトに示す。
論文 参考訳(メタデータ) (2022-08-02T17:55:41Z) - ManiTrans: Entity-Level Text-Guided Image Manipulation via Token-wise
Semantic Alignment and Generation [97.36550187238177]
実世界の実体レベルにおけるテキスト誘導画像操作に関する新しい課題について検討する。
このタスクは、(1)テキスト記述と整合したエンティティを編集すること、(2)テキスト関連領域を保存すること、(3)操作されたエンティティを自然に画像にマージすること、の3つの基本的な要件を課している。
本フレームワークでは,操作対象の画像領域を特定するためのセマンティックアライメントモジュールと,視覚と言語の関係の整合を支援するセマンティックアライメントモジュールを備えている。
論文 参考訳(メタデータ) (2022-04-09T09:01:19Z) - FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。
まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。
我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文 参考訳(メタデータ) (2022-03-09T13:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。