論文の概要: DiffuseGAE: Controllable and High-fidelity Image Manipulation from
Disentangled Representation
- arxiv url: http://arxiv.org/abs/2307.05899v1
- Date: Wed, 12 Jul 2023 04:11:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 14:17:37.905935
- Title: DiffuseGAE: Controllable and High-fidelity Image Manipulation from
Disentangled Representation
- Title(参考訳): DiffuseGAE:非交叉表現による制御可能かつ高忠実な画像操作
- Authors: Yipeng Leng, Qiangjuan Huang, Zhiyuan Wang, Yangyang Liu, Haoyu Zhang
- Abstract要約: 拡散確率モデル (DPM) は様々な画像合成タスクにおいて顕著な結果を示した。
DPMには低次元、解釈可能、そしてよく分離された潜在コードがない。
自動符号化による表現学習におけるDPMの可能性を探るため,Diff-AEを提案する。
- 参考スコア(独自算出の注目度): 14.725538019917625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion probabilistic models (DPMs) have shown remarkable results on
various image synthesis tasks such as text-to-image generation and image
inpainting. However, compared to other generative methods like VAEs and GANs,
DPMs lack a low-dimensional, interpretable, and well-decoupled latent code.
Recently, diffusion autoencoders (Diff-AE) were proposed to explore the
potential of DPMs for representation learning via autoencoding. Diff-AE
provides an accessible latent space that exhibits remarkable interpretability,
allowing us to manipulate image attributes based on latent codes from the
space. However, previous works are not generic as they only operated on a few
limited attributes. To further explore the latent space of Diff-AE and achieve
a generic editing pipeline, we proposed a module called Group-supervised
AutoEncoder(dubbed GAE) for Diff-AE to achieve better disentanglement on the
latent code. Our proposed GAE has trained via an attribute-swap strategy to
acquire the latent codes for multi-attribute image manipulation based on
examples. We empirically demonstrate that our method enables
multiple-attributes manipulation and achieves convincing sample quality and
attribute alignments, while significantly reducing computational requirements
compared to pixel-based approaches for representational decoupling. Code will
be released soon.
- Abstract(参考訳): 拡散確率モデル (DPM) はテキスト・ツー・イメージ生成や画像インパインティングといった様々な画像合成タスクにおいて顕著な結果を示している。
しかしながら、VAEやGANのような他の生成方法と比較して、DPMは低次元、解釈可能、そしてよく分離された潜在コードを持たない。
近年,拡散オートエンコーダ (Diff-AE) が提案されている。
diff-aeは、注目すべき解釈性を示すアクセス可能な潜在性空間を提供し、空間からの潜在コードに基づいて画像属性を操作できます。
ただし、いくつかの限定的な属性でのみ動作するため、以前の作業は汎用的ではない。
さらに,Diff-AEの潜伏空間を探索し,汎用的な編集パイプラインを実現するために,Diff-AEのためのグループ教師付きオートエンコーダ(GAE)と呼ばれるモジュールを提案した。
提案するGAEは属性スワップ戦略を用いて,複数属性の画像操作のための潜在コードを取得する訓練を行っている。
提案手法は,複数属性の操作が可能であり,精度の高いサンプル品質と属性アライメントを実現するとともに,画素ベースのデカップリング手法と比較して計算要求を著しく低減する。
コードはまもなくリリースされる。
関連論文リスト
- In-Domain GAN Inversion for Faithful Reconstruction and Editability [132.68255553099834]
ドメイン誘導型ドメイン正規化とエンコーダで構成されたドメイン内GANインバージョンを提案し、事前学習されたGANモデルのネイティブ潜在空間における反転コードを正規化する。
エンコーダ構造,開始反転点,および逆パラメータ空間の効果を総合的に解析し,再構成品質と編集特性とのトレードオフを観察する。
論文 参考訳(メタデータ) (2023-09-25T08:42:06Z) - Hierarchical Diffusion Autoencoders and Disentangled Image Manipulation [36.20575570779196]
拡散モデルの潜在空間に対して,細粒度から細粒度まで,低レベルから高レベルの特徴階層を利用する。
HDAEの階層的潜在空間は本質的に異なる抽象的な意味論のレベルを符号化し、より包括的な意味表現を提供する。
提案手法の有効性を実験的に検証し,画像再構成,スタイル混合,制御可能,ディテール保存,不整合な画像操作に応用した。
論文 参考訳(メタデータ) (2023-04-24T05:35:59Z) - Spatial Steerability of GANs via Self-Supervision from Discriminator [123.27117057804732]
本稿では,GANの空間的ステアビリティを向上させるための自己教師型アプローチを提案する。
具体的には、空間帰納バイアスとして生成モデルの中間層に符号化されるランダムなガウス熱マップを設計する。
推論中、ユーザは直感的に空間のヒートマップと対話し、シーンのレイアウトを調整したり、移動したり、オブジェクトを削除したりすることで、出力画像を編集することができる。
論文 参考訳(メタデータ) (2023-01-20T07:36:29Z) - Unsupervised Representation Learning from Pre-trained Diffusion
Probabilistic Models [83.75414370493289]
拡散確率モデル(DPM)は高品質の画像サンプルを生成する強力な能力を示している。
Diff-AEは自動符号化による表現学習のためのDPMを探索するために提案されている。
我々は、既存のトレーニング済みDPMをデコーダに適応させるために、textbfPre-trained textbfAutotextbfEncoding (textbfPDAE)を提案する。
論文 参考訳(メタデータ) (2022-12-26T02:37:38Z) - Everything is There in Latent Space: Attribute Editing and Attribute
Style Manipulation by StyleGAN Latent Space Exploration [39.18239951479647]
RAAME (Few-shot Latent-based Attribute Manipulation and Editing) について紹介する。
FLAMEは、遅延空間操作によって高度に制御された画像編集を行うためのフレームワークである。
様々な属性スタイルをアンタングル的に生成する。
論文 参考訳(メタデータ) (2022-07-20T12:40:32Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Diffusion Autoencoders: Toward a Meaningful and Decodable Representation [1.471992435706872]
拡散モデル(DPM)は、GANと競合する画像生成において顕著な品質を実現している。
GANとは異なり、DPMは意味的な意味がなく、他のタスクの有用な表現として機能しない潜在変数のセットを使用する。
本稿では,DPMを用いた表現学習の可能性について検討し,自動符号化による入力画像の有意義でデオード可能な表現の抽出を試みている。
論文 参考訳(メタデータ) (2021-11-30T18:24:04Z) - Semi-Supervised Domain Adaptation with Prototypical Alignment and
Consistency Learning [86.6929930921905]
本稿では,いくつかの対象サンプルがラベル付けされていれば,ドメインシフトに対処するのにどの程度役立つか検討する。
ランドマークの可能性を最大限に追求するために、ランドマークから各クラスのターゲットプロトタイプを計算するプロトタイプアライメント(PA)モジュールを組み込んでいます。
具体的には,ラベル付き画像に深刻な摂動を生じさせ,PAを非自明にし,モデル一般化性を促進する。
論文 参考訳(メタデータ) (2021-04-19T08:46:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。