論文の概要: Latent Space Disentanglement in Diffusion Transformers Enables Precise Zero-shot Semantic Editing
- arxiv url: http://arxiv.org/abs/2411.08196v1
- Date: Tue, 12 Nov 2024 21:34:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:11:19.583355
- Title: Latent Space Disentanglement in Diffusion Transformers Enables Precise Zero-shot Semantic Editing
- Title(参考訳): 精密ゼロショットセマンティック編集が可能な拡散変換器における潜時空間歪み
- Authors: Zitao Shuai, Chenwei Wu, Zhengxu Tang, Bowen Song, Liyue Shen,
- Abstract要約: 拡散変換器(DiT)は近年,テキスト誘導画像生成において顕著な成功を収めている。
マルチモーダルな情報がこのジョイント空間を集合的に形成し、合成画像のセマンティクスをいかに導くかを示す。
ゼロショットきめ細かい画像編集のための簡易かつ効果的なEncode-Identify-Manipulate (EIM) フレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.948910649137149
- License:
- Abstract: Diffusion Transformers (DiTs) have recently achieved remarkable success in text-guided image generation. In image editing, DiTs project text and image inputs to a joint latent space, from which they decode and synthesize new images. However, it remains largely unexplored how multimodal information collectively forms this joint space and how they guide the semantics of the synthesized images. In this paper, we investigate the latent space of DiT models and uncover two key properties: First, DiT's latent space is inherently semantically disentangled, where different semantic attributes can be controlled by specific editing directions. Second, consistent semantic editing requires utilizing the entire joint latent space, as neither encoded image nor text alone contains enough semantic information. We show that these editing directions can be obtained directly from text prompts, enabling precise semantic control without additional training or mask annotations. Based on these insights, we propose a simple yet effective Encode-Identify-Manipulate (EIM) framework for zero-shot fine-grained image editing. Specifically, we first encode both the given source image and the text prompt that describes the image, to obtain the joint latent embedding. Then, using our proposed Hessian Score Distillation Sampling (HSDS) method, we identify editing directions that control specific target attributes while preserving other image features. These directions are guided by text prompts and used to manipulate the latent embeddings. Moreover, we propose a new metric to quantify the disentanglement degree of the latent space of diffusion models. Extensive experiment results on our new curated benchmark dataset and analysis demonstrate DiT's disentanglement properties and effectiveness of the EIM framework.
- Abstract(参考訳): 拡散変換器(DiT)は近年,テキスト誘導画像生成において顕著な成功を収めている。
画像編集において、DiTはテキストと画像入力をジョイント潜在空間に投影し、そこから新しい画像をデコードして合成する。
しかし、マルチモーダル情報はどのようにしてこのジョイント空間を形成するのか、どのように合成された画像の意味論を導くのかは明らかにされていない。
本稿では,DiTモデルの潜在空間を調査し,2つの重要な特性を明らかにする。
第二に、エンコードされた画像もテキストも、十分な意味情報を含んでいないため、一貫性のあるセマンティック編集は、ジョイント潜在空間全体を活用する必要がある。
これらの編集方向はテキストプロンプトから直接取得できることを示し、追加のトレーニングやマスクアノテーションを使わずに正確な意味制御を可能にする。
これらの知見に基づき、ゼロショットきめ細かい画像編集のための簡易かつ効果的なEncode-Identify-Manipulate (EIM) フレームワークを提案する。
具体的には、まず、与えられたソース画像と、その画像を記述するテキストプロンプトの両方を符号化し、共同潜伏埋め込みを得る。
そこで,提案手法であるHessian Score Distillation Smpling (HSDS) を用いて,他の画像特徴を保存しながら,特定の目標属性を制御する編集方向を同定する。
これらの方向はテキストプロンプトによって案内され、潜伏した埋め込みを操作するために使用される。
さらに,拡散モデルの潜在空間の絡み合う度合いを定量化するための新しい指標を提案する。
新しいベンチマークデータセットと分析による大規模な実験結果から,DiTのアンタングル特性とEIMフレームワークの有効性が示された。
関連論文リスト
- Latent Space Disentanglement in Diffusion Transformers Enables Zero-shot Fine-grained Semantic Editing [4.948910649137149]
Diffusion Transformer (DiTs) は多種多様な高品質のテキスト・トゥ・イメージ(T2I)生成において顕著な成功を収めた。
テキストと画像の潜伏者が、生成した画像のセマンティクスに、個々と共同でどのように貢献するかを検討する。
ゼロショットきめ細かい画像編集のための簡易かつ効果的な抽出マニピュレーション・サンプル・フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-23T19:00:52Z) - Zero-shot Inversion Process for Image Attribute Editing with Diffusion
Models [9.924851219904843]
本稿では,事前学習した拡散モデルのセマンティック潜在空間に生成した視覚参照とテキストガイダンスの融合を注入するフレームワークを提案する。
提案したZIPは、小さなニューラルネットワークのみを使用して、テキストプロンプトの直感的な制御の下で、多様なコンテンツや属性を生成する。
最先端の手法と比較して、ZIPはリアルな編集効果を提供しながら、同等の画質の画像を生成する。
論文 参考訳(メタデータ) (2023-08-30T08:40:15Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Entity-Level Text-Guided Image Manipulation [70.81648416508867]
実世界の実体レベルにおけるテキスト誘導画像操作の新しい課題(eL-TGIM)について検討する。
本稿では,実世界の画像のセマンティック・マニピュレーション(Semantic Manipulation)を形成する,セマンニ(Semani)と呼ばれるエレガントなフレームワークを提案する。
セマンティクスアライメントフェーズでは、セマンティクスアライメントモジュールを使用して、操作対象のエンティティ関連領域を特定する。
画像操作フェーズでは、SeManiは生成モデルを採用し、エンティティ非関連領域に条件付された新しい画像とターゲットテキスト記述を合成する。
論文 参考訳(メタデータ) (2023-02-22T13:56:23Z) - Towards Arbitrary Text-driven Image Manipulation via Space Alignment [49.3370305074319]
スペースアライメント(TMSA)を用いた新しいテキスト駆動画像操作フレームワークを提案する。
TMSAはCLIPとStyleGAN空間で同じセマンティック領域を整列することを目的としている。
このフレームワークは、追加コストなしで任意の画像編集モードをサポートすることができる。
論文 参考訳(メタデータ) (2023-01-25T16:20:01Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z) - Layout-Bridging Text-to-Image Synthesis [20.261873143881573]
我々は、テキスト・ツー・イメージ生成とレイアウト・ツー・イメージ合成の両方において効果的なモデリングを推し進める。
入力テキストをレイアウト・ツー・イメージ合成プロセスに正確に組み込むために,レイアウト中のオブジェクトごとのテキスト・視覚的セマンティックアライメントを学習することに注力する。
論文 参考訳(メタデータ) (2022-08-12T08:21:42Z) - ManiTrans: Entity-Level Text-Guided Image Manipulation via Token-wise
Semantic Alignment and Generation [97.36550187238177]
実世界の実体レベルにおけるテキスト誘導画像操作に関する新しい課題について検討する。
このタスクは、(1)テキスト記述と整合したエンティティを編集すること、(2)テキスト関連領域を保存すること、(3)操作されたエンティティを自然に画像にマージすること、の3つの基本的な要件を課している。
本フレームワークでは,操作対象の画像領域を特定するためのセマンティックアライメントモジュールと,視覚と言語の関係の整合を支援するセマンティックアライメントモジュールを備えている。
論文 参考訳(メタデータ) (2022-04-09T09:01:19Z) - FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。
まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。
我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文 参考訳(メタデータ) (2022-03-09T13:34:38Z) - Delta-GAN-Encoder: Encoding Semantic Changes for Explicit Image Editing,
using Few Synthetic Samples [2.348633570886661]
本稿では,事前学習したGANの潜伏空間において,任意の属性を制御できる新しい手法を提案する。
我々は最小限のサンプルを頼りにSim2Real学習を行い、連続的な正確な編集を無制限に行う。
論文 参考訳(メタデータ) (2021-11-16T12:42:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。