論文の概要: Exploring Low-Dimensional Subspaces in Diffusion Models for Controllable Image Editing
- arxiv url: http://arxiv.org/abs/2409.02374v1
- Date: Wed, 4 Sep 2024 01:47:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 20:41:08.414745
- Title: Exploring Low-Dimensional Subspaces in Diffusion Models for Controllable Image Editing
- Title(参考訳): 制御可能な画像編集のための拡散モデルにおける低次元部分空間の探索
- Authors: Siyi Chen, Huijie Zhang, Minzhe Guo, Yifu Lu, Peng Wang, Qing Qu,
- Abstract要約: 拡散モデルにおける局所的編集を高精度に行うために,教師なし,一段階の訓練不要なLow-rank Conntrollable Image Editor (LOCO Edit) を提案する。
本手法は,様々なテキスト・画像拡散モデルにおいて,教師なしあるいはテキスト・教師なしの編集に拡張することができる。
- 参考スコア(独自算出の注目度): 8.719366108835638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, diffusion models have emerged as a powerful class of generative models. Despite their success, there is still limited understanding of their semantic spaces. This makes it challenging to achieve precise and disentangled image generation without additional training, especially in an unsupervised way. In this work, we improve the understanding of their semantic spaces from intriguing observations: among a certain range of noise levels, (1) the learned posterior mean predictor (PMP) in the diffusion model is locally linear, and (2) the singular vectors of its Jacobian lie in low-dimensional semantic subspaces. We provide a solid theoretical basis to justify the linearity and low-rankness in the PMP. These insights allow us to propose an unsupervised, single-step, training-free LOw-rank COntrollable image editing (LOCO Edit) method for precise local editing in diffusion models. LOCO Edit identified editing directions with nice properties: homogeneity, transferability, composability, and linearity. These properties of LOCO Edit benefit greatly from the low-dimensional semantic subspace. Our method can further be extended to unsupervised or text-supervised editing in various text-to-image diffusion models (T-LOCO Edit). Finally, extensive empirical experiments demonstrate the effectiveness and efficiency of LOCO Edit. The codes will be released at https://github.com/ChicyChen/LOCO-Edit.
- Abstract(参考訳): 近年、拡散モデルは生成モデルの強力なクラスとして現れている。
彼らの成功にもかかわらず、セマンティック空間についてはまだ理解が限られている。
これにより、特に教師なしの方法で、追加のトレーニングをすることなく、正確で不整合の画像生成を実現することが困難になる。
本研究では,(1)拡散モデルにおける学習後平均予測器 (PMP) は局所線型であり,(2) ヤコビアンの特異ベクトルは低次元のセマンティック部分空間にある。
我々は、PMPの線形性と低ランク性を正当化する確固たる理論的基礎を提供する。
これらの知見により、拡散モデルにおける正確な局所的編集のための、教師なし、トレーニング不要なLOCO-rank Conntrollable Image Editor (LOCO Edit) 法を提案することができる。
LOCO Editは、均一性、転送可能性、構成可能性、線形性といった優れた特性を持つ編集方向を特定した。
これらのLOCO Editの特性は、低次元の意味部分空間から大いに恩恵を受ける。
本手法は,テキスト間拡散モデル(T-LOCO Edit)において,教師なしあるいはテキストによる編集に拡張することができる。
最後に、大規模な実験によりLOCO編集の有効性と効率が示された。
コードはhttps://github.com/ChicyChen/LOCO-Editで公開される。
関連論文リスト
- NoiseCLR: A Contrastive Learning Approach for Unsupervised Discovery of
Interpretable Directions in Diffusion Models [6.254873489691852]
本稿では,テキストのプロンプトに依存することなく,テキスト間拡散モデルにおける潜在意味を検出する教師なし手法を提案する。
提案手法は,拡散法とGAN法を併用した遅延空間編集法において,既存の手法よりも優れている。
論文 参考訳(メタデータ) (2023-12-08T22:04:53Z) - Self-correcting LLM-controlled Diffusion Models [83.26605445217334]
自己補正LPM制御拡散(SLD)を導入する
SLDは、入力プロンプトから画像を生成し、プロンプトとアライメントを評価し、生成した画像の不正確性に対して自己補正を行うフレームワークである。
提案手法は, 生成数, 属性結合, 空間的関係において, 不正確な世代の大部分を補正することができる。
論文 参考訳(メタデータ) (2023-11-27T18:56:37Z) - Aligning Text-to-Image Diffusion Models with Reward Backpropagation [62.45086888512723]
本稿では,報酬勾配のエンドツーエンドのバックプロパゲーションを用いて,拡散モデルを下流の報酬関数に整合させる手法であるAlignPropを提案する。
AlignPropは、選択肢よりも少ないトレーニングステップでより高い報酬を得るが、概念的にはシンプルである。
論文 参考訳(メタデータ) (2023-10-05T17:59:18Z) - DiffusionSeg: Adapting Diffusion Towards Unsupervised Object Discovery [20.787180028571694]
DiffusionSegは、2段階戦略を含む合成探索フレームワークである。
我々は,豊富な画像を合成し,第1段階でマスクを得るための新しいトレーニングフリーアテンションカットを提案する。
第2のエクスプロイト段階では、構造的ギャップを埋めるために、インバージョン技術を用いて、与えられた画像を拡散特徴にマッピングする。
論文 参考訳(メタデータ) (2023-03-17T07:47:55Z) - Spatial Steerability of GANs via Self-Supervision from Discriminator [123.27117057804732]
本稿では,GANの空間的ステアビリティを向上させるための自己教師型アプローチを提案する。
具体的には、空間帰納バイアスとして生成モデルの中間層に符号化されるランダムなガウス熱マップを設計する。
推論中、ユーザは直感的に空間のヒートマップと対話し、シーンのレイアウトを調整したり、移動したり、オブジェクトを削除したりすることで、出力画像を編集することができる。
論文 参考訳(メタデータ) (2023-01-20T07:36:29Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - Unifying Diffusion Models' Latent Space, with Applications to
CycleDiffusion and Guidance [95.12230117950232]
関係領域で独立に訓練された2つの拡散モデルから共通潜時空間が現れることを示す。
テキスト・画像拡散モデルにCycleDiffusionを適用することで、大規模なテキスト・画像拡散モデルがゼロショット画像・画像拡散エディタとして使用できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:53:52Z) - Orthogonal Jacobian Regularization for Unsupervised Disentanglement in
Image Generation [64.92152574895111]
直交ジャコビアン正規化法(OroJaR)を提案する。
提案手法は, 絡み合った, 制御可能な画像生成に有効であり, 最先端の手法に対して好適に機能する。
論文 参考訳(メタデータ) (2021-08-17T15:01:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。