論文の概要: Latent Space Disentanglement in Diffusion Transformers Enables Zero-shot Fine-grained Semantic Editing
- arxiv url: http://arxiv.org/abs/2408.13335v1
- Date: Fri, 23 Aug 2024 19:00:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 19:59:01.984246
- Title: Latent Space Disentanglement in Diffusion Transformers Enables Zero-shot Fine-grained Semantic Editing
- Title(参考訳): ゼロショットきめ細かなセマンティック編集が可能な拡散変圧器における潜時空間歪み
- Authors: Zitao Shuai, Chenwei Wu, Zhengxu Tang, Bowen Song, Liyue Shen,
- Abstract要約: Diffusion Transformer (DiTs) は多種多様な高品質のテキスト・トゥ・イメージ(T2I)生成において顕著な成功を収めた。
テキストと画像の潜伏者が、生成した画像のセマンティクスに、個々と共同でどのように貢献するかを検討する。
ゼロショットきめ細かい画像編集のための簡易かつ効果的な抽出マニピュレーション・サンプル・フレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.948910649137149
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Diffusion Transformers (DiTs) have achieved remarkable success in diverse and high-quality text-to-image(T2I) generation. However, how text and image latents individually and jointly contribute to the semantics of generated images, remain largely unexplored. Through our investigation of DiT's latent space, we have uncovered key findings that unlock the potential for zero-shot fine-grained semantic editing: (1) Both the text and image spaces in DiTs are inherently decomposable. (2) These spaces collectively form a disentangled semantic representation space, enabling precise and fine-grained semantic control. (3) Effective image editing requires the combined use of both text and image latent spaces. Leveraging these insights, we propose a simple and effective Extract-Manipulate-Sample (EMS) framework for zero-shot fine-grained image editing. Our approach first utilizes a multi-modal Large Language Model to convert input images and editing targets into text descriptions. We then linearly manipulate text embeddings based on the desired editing degree and employ constrained score distillation sampling to manipulate image embeddings. We quantify the disentanglement degree of the latent space of diffusion models by proposing a new metric. To evaluate fine-grained editing performance, we introduce a comprehensive benchmark incorporating both human annotations, manual evaluation, and automatic metrics. We have conducted extensive experimental results and in-depth analysis to thoroughly uncover the semantic disentanglement properties of the diffusion transformer, as well as the effectiveness of our proposed method. Our annotated benchmark dataset is publicly available at https://anonymous.com/anonymous/EMS-Benchmark, facilitating reproducible research in this domain.
- Abstract(参考訳): Diffusion Transformer (DiTs) は多種多様な高品質のテキスト・トゥ・イメージ(T2I)生成において顕著な成功を収めた。
しかし、テキストと画像の潜伏者が、生成した画像のセマンティクスに、個々に共同でどのように貢献するかは、いまだに未解明のままである。
DiTの潜伏空間の調査を通じて、ゼロショットの微細なセマンティック編集の可能性を解き明かす重要な発見が明らかになった: 1) DiTのテキストと画像空間は本質的に分解可能である。
2) これらの空間は、密接なセマンティック表現空間を集合的に形成し、精密かつきめ細かなセマンティック制御を可能にする。
(3)有効画像編集には,テキストと画像遅延空間の併用が必要である。
これらの知見を生かして、ゼロショットきめ細かい画像編集のためのシンプルで効果的な抽出・マニピュレーション・サンプル(EMS)フレームワークを提案する。
提案手法はまずマルチモーダル大言語モデルを用いて,入力画像の変換とターゲットの編集をテキスト記述に変換する。
次に、所望の編集度に基づいてテキスト埋め込みを線形に操作し、制約付きスコア蒸留サンプリングを用いて画像埋め込みを演算する。
拡散モデルの潜在空間の非交叉度を、新しい計量を提案して定量化する。
微粒な編集性能を評価するため,人間のアノテーション,手動評価,自動メトリクスを取り入れた総合的なベンチマークを導入する。
本研究では,拡散変圧器のセマンティック・アンタングル化特性の解明と,提案手法の有効性について検討した。
私たちのアノテーション付きベンチマークデータセットはhttps://anonymous.com/anonymous/EMS-Benchmarkで公開されています。
関連論文リスト
- Latent Space Disentanglement in Diffusion Transformers Enables Precise Zero-shot Semantic Editing [4.948910649137149]
拡散変換器(DiT)は近年,テキスト誘導画像生成において顕著な成功を収めている。
マルチモーダルな情報がこのジョイント空間を集合的に形成し、合成画像のセマンティクスをいかに導くかを示す。
ゼロショットきめ細かい画像編集のための簡易かつ効果的なEncode-Identify-Manipulate (EIM) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-12T21:34:30Z) - Exploring Fine-Grained Image-Text Alignment for Referring Remote Sensing Image Segmentation [27.95875467352853]
本稿では,視覚的および言語的表現を完全に活用する新たな参照リモートセンシング画像分割手法であるFIANetを提案する。
提案した細粒度画像テキストアライメントモジュール(FIAM)は、入力画像と対応するテキストの特徴を同時に活用する。
本稿では,RefSegRSとRRSIS-Dを含む2つのリモートセンシングデータセットに対する提案手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-09-20T16:45:32Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Entity-Level Text-Guided Image Manipulation [70.81648416508867]
実世界の実体レベルにおけるテキスト誘導画像操作の新しい課題(eL-TGIM)について検討する。
本稿では,実世界の画像のセマンティック・マニピュレーション(Semantic Manipulation)を形成する,セマンニ(Semani)と呼ばれるエレガントなフレームワークを提案する。
セマンティクスアライメントフェーズでは、セマンティクスアライメントモジュールを使用して、操作対象のエンティティ関連領域を特定する。
画像操作フェーズでは、SeManiは生成モデルを採用し、エンティティ非関連領域に条件付された新しい画像とターゲットテキスト記述を合成する。
論文 参考訳(メタデータ) (2023-02-22T13:56:23Z) - Towards Better Text-Image Consistency in Text-to-Image Generation [15.735515302139335]
私たちはSemantic similarity Distance(SSD)と呼ばれる新しいCLIPベースのメトリクスを開発した。
さらに,異なる粒度で意味情報を融合できる並列深層核生成適応ネットワーク (PDF-GAN) を設計する。
我々のPDF-GANは、CUBおよびCOCOデータセットの良好な画像品質を維持しながら、テキスト画像の一貫性を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-10-27T07:47:47Z) - FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。
まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。
我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文 参考訳(メタデータ) (2022-03-09T13:34:38Z) - Is An Image Worth Five Sentences? A New Look into Semantics for
Image-Text Matching [10.992151305603267]
本稿では,検索項目の意味的関連度を評価するための2つの指標を提案する。
画像キャプションの指標であるCIDErを用いて,標準的な三重項損失に最適化されるセマンティック適応マージン(SAM)を定義する。
論文 参考訳(メタデータ) (2021-10-06T09:54:28Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。