論文の概要: S$^2$Edit: Text-Guided Image Editing with Precise Semantic and Spatial Control
- arxiv url: http://arxiv.org/abs/2507.04584v1
- Date: Mon, 07 Jul 2025 00:14:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.24205
- Title: S$^2$Edit: Text-Guided Image Editing with Precise Semantic and Spatial Control
- Title(参考訳): S$^2$Edit: 精密意味と空間制御によるテキストガイド画像編集
- Authors: Xudong Liu, Zikun Chen, Ruowei Jiang, Ziyi Wu, Kejia Yin, Han Zhao, Parham Aarabi, Igor Gilitschenski,
- Abstract要約: S$2$Editはテキストから画像への拡散モデルであり、正確な意味論と空間制御によるパーソナライズされた編集を可能にする。
S$2$Editは、学習した意味的に乱れ、空間的に焦点を絞ったアイデンティティトークンを用いて、元のアイデンティティを忠実に保存しながら、ローカライズされた編集を行うことを示す。
- 参考スコア(独自算出の注目度): 29.031157601804953
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in diffusion models have enabled high-quality generation and manipulation of images guided by texts, as well as concept learning from images. However, naive applications of existing methods to editing tasks that require fine-grained control, e.g., face editing, often lead to suboptimal solutions with identity information and high-frequency details lost during the editing process, or irrelevant image regions altered due to entangled concepts. In this work, we propose S$^2$Edit, a novel method based on a pre-trained text-to-image diffusion model that enables personalized editing with precise semantic and spatial control. We first fine-tune our model to embed the identity information into a learnable text token. During fine-tuning, we disentangle the learned identity token from attributes to be edited by enforcing an orthogonality constraint in the textual feature space. To ensure that the identity token only affects regions of interest, we apply object masks to guide the cross-attention maps. At inference time, our method performs localized editing while faithfully preserving the original identity with semantically disentangled and spatially focused identity token learned. Extensive experiments demonstrate the superiority of S$^2$Edit over state-of-the-art methods both quantitatively and qualitatively. Additionally, we showcase several compositional image editing applications of S$^2$Edit such as makeup transfer.
- Abstract(参考訳): 拡散モデルの最近の進歩は、テキストでガイドされた画像の高品質な生成と操作を可能にするとともに、画像からの概念学習を可能にしている。
しかし、例えば、顔編集のようなきめ細かな制御を必要とするタスクを編集するための既存の手法の素直な応用は、編集過程で失われるアイデンティティ情報や高周波の詳細を含むサブ最適解や、絡み合った概念によって変化した無関係の画像領域につながることが多い。
本研究では,S$^2$Editを提案する。S$^2$Editは,事前学習したテキストと画像の拡散モデルに基づく,正確な意味と空間制御によるパーソナライズされた編集を可能にする新しい手法である。
まずモデルを微調整し、ID情報を学習可能なテキストトークンに埋め込む。
微調整中、テキスト特徴空間に直交制約を課すことにより、学習したIDトークンを編集対象属性から切り離す。
同一性トークンが興味のある領域にのみ影響することを保証するため、対象マスクを適用して、相互注意マップを案内する。
提案手法は,意味的に不整合で空間的に焦点を絞った識別トークンを用いて,元のアイデンティティを忠実に保存しながら,局所的な編集を行う。
S$^2$Editの数値的および定性的に、最先端の手法よりも優れていることを示した。
さらに,S$^2$Editの合成画像編集アプリケーションをいくつか紹介する。
関連論文リスト
- CPAM: Context-Preserving Adaptive Manipulation for Zero-Shot Real Image Editing [24.68304617869157]
コンテキスト保存適応マニピュレーション(CPAM)は複雑な非厳密な実画像編集のための新しいフレームワークである。
我々は,オブジェクトと背景を効果的に保存し,独立に制御する自己認識機構を調整した保存適応モジュールを開発した。
また,多様な画像操作作業を簡易に行うためのマスク誘導戦略も導入した。
論文 参考訳(メタデータ) (2025-06-23T09:19:38Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [115.49488548588305]
画像の編集のために、事前訓練された拡散モデルの驚くべき能力を活用することに重点が置かれている。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。