論文の概要: Exploring the latent space of diffusion models directly through singular value decomposition
- arxiv url: http://arxiv.org/abs/2502.02225v1
- Date: Tue, 04 Feb 2025 11:04:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:01:38.347671
- Title: Exploring the latent space of diffusion models directly through singular value decomposition
- Title(参考訳): 特異値分解による拡散モデルの潜在空間の探索
- Authors: Li Wang, Boyan Gao, Yanran Li, Zhao Wang, Xiaosong Yang, David A. Clifton, Jun Xiao,
- Abstract要約: 拡散モデルにおけるテキストプロンプトによって決定される1組の潜在符号から任意の属性を学習できる新しい画像編集フレームワークを提案する。
この分野のさらなる研究と応用を促進するため、まもなくコードをリリースします。
- 参考スコア(独自算出の注目度): 31.900933527692846
- License:
- Abstract: Despite the groundbreaking success of diffusion models in generating high-fidelity images, their latent space remains relatively under-explored, even though it holds significant promise for enabling versatile and interpretable image editing capabilities. The complicated denoising trajectory and high dimensionality of the latent space make it extremely challenging to interpret. Existing methods mainly explore the feature space of U-Net in Diffusion Models (DMs) instead of the latent space itself. In contrast, we directly investigate the latent space via Singular Value Decomposition (SVD) and discover three useful properties that can be used to control generation results without the requirements of data collection and maintain identity fidelity generated images. Based on these properties, we propose a novel image editing framework that is capable of learning arbitrary attributes from one pair of latent codes destined by text prompts in Stable Diffusion Models. To validate our approach, extensive experiments are conducted to demonstrate its effectiveness and flexibility in image editing. We will release our codes soon to foster further research and applications in this area.
- Abstract(参考訳): 高忠実度画像の生成において拡散モデルが画期的な成功をおさめたにもかかわらず、その潜在空間は、多目的で解釈可能な画像編集機能を実現するという大きな約束があるにもかかわらず、比較的未探索のままである。
遅延空間の複雑な denoising trajectory と高次元性により、解釈は非常に困難である。
既存の手法は主に、潜伏空間自体ではなく、拡散モデル(DM)におけるU-Netの特徴空間を探索する。
対照的に、Singular Value Decomposition (SVD) を介して潜伏空間を直接調査し、データ収集の必要なしに生成結果を制御し、同一性を生成する画像を維持するために使用できる3つの有用な特性を発見する。
これらの特性に基づいて、安定拡散モデルにおけるテキストプロンプトによって決定される1組の潜在コードから任意の属性を学習できる新しい画像編集フレームワークを提案する。
提案手法を検証するため,画像編集におけるその有効性と柔軟性を実証する広範囲な実験を行った。
この分野のさらなる研究と応用を促進するため、まもなくコードをリリースします。
関連論文リスト
- Decoding Diffusion: A Scalable Framework for Unsupervised Analysis of Latent Space Biases and Representations Using Natural Language Prompts [68.48103545146127]
本稿では拡散潜在空間の教師なし探索のための新しい枠組みを提案する。
我々は、自然言語のプロンプトと画像キャプションを直接利用して、遅延方向をマップする。
本手法は,拡散モデルに符号化された意味的知識をよりスケーラブルで解釈可能な理解を提供する。
論文 参考訳(メタデータ) (2024-10-25T21:44:51Z) - Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities [88.398085358514]
Contrastive Deepfake Embeddings (CoDE)は、ディープフェイク検出に特化した新しい埋め込み空間である。
CoDEは、グローバルローカルな類似性をさらに強化することで、対照的な学習を通じて訓練される。
論文 参考訳(メタデータ) (2024-07-29T18:00:10Z) - Isometric Representation Learning for Disentangled Latent Space of Diffusion Models [17.64488229224982]
等方的拡散(Isometric Diffusion)を提案し、幾何正則化器を備えた拡散モデルを用いてモデルを誘導し、トレーニングデータ多様体の幾何学的音響潜在空間を学習する。
このアプローチにより拡散モデルはより不整合な潜在空間を学習することができ、より滑らかで正確に逆転し、潜在空間に直接属性を制御できるようになる。
論文 参考訳(メタデータ) (2024-07-16T07:36:01Z) - AEROBLADE: Training-Free Detection of Latent Diffusion Images Using Autoencoder Reconstruction Error [15.46508882889489]
計算コストの低い高解像度画像を生成するための重要なイネーブルは、潜時拡散モデル(LDM)の開発である。
LDMは、高次元画像空間の代わりに、事前訓練されたオートエンコーダ(AE)の低次元潜時空間で復調処理を行う。
本稿では,画像と潜時空間間の画像変換に用いるAEという,LDMの固有成分を利用した新しい検出手法を提案する。
論文 参考訳(メタデータ) (2024-01-31T14:36:49Z) - NoiseCLR: A Contrastive Learning Approach for Unsupervised Discovery of
Interpretable Directions in Diffusion Models [6.254873489691852]
本稿では,テキストのプロンプトに依存することなく,テキスト間拡散モデルにおける潜在意味を検出する教師なし手法を提案する。
提案手法は,拡散法とGAN法を併用した遅延空間編集法において,既存の手法よりも優れている。
論文 参考訳(メタデータ) (2023-12-08T22:04:53Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - Low-Rank Subspaces in GANs [101.48350547067628]
この研究は、GAN生成をより正確に制御できる低ランクな部分空間を導入している。
LowRankGAN は属性多様体の低次元表現を見つけることができる。
さまざまなデータセットでトレーニングされた最先端のGANモデル(StyleGAN2やBigGANなど)の実験は、私たちのLowRankGANの有効性を示しています。
論文 参考訳(メタデータ) (2021-06-08T16:16:32Z) - Evidential Sparsification of Multimodal Latent Spaces in Conditional
Variational Autoencoders [63.46738617561255]
訓練された条件付き変分オートエンコーダの離散潜時空間をスパース化する問題を考察する。
顕在的理論を用いて、特定の入力条件から直接証拠を受け取る潜在クラスを特定し、そうでないクラスをフィルタリングする。
画像生成や人間の行動予測などの多様なタスクの実験により,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2020-10-19T01:27:21Z) - IntroVAC: Introspective Variational Classifiers for Learning
Interpretable Latent Subspaces [6.574517227976925]
IntroVACは、追加ラベルから情報を活用することで、解釈可能な潜在部分空間を学習する。
IntroVACは、画像属性の微調整を可能にする潜在空間における意味のある方向を学習可能であることを示す。
論文 参考訳(メタデータ) (2020-08-03T10:21:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。