論文の概要: AE-StyleGAN: Improved Training of Style-Based Auto-Encoders
- arxiv url: http://arxiv.org/abs/2110.08718v1
- Date: Sun, 17 Oct 2021 04:25:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 18:15:53.291821
- Title: AE-StyleGAN: Improved Training of Style-Based Auto-Encoders
- Title(参考訳): AE-StyleGAN:スタイルベースオートエンコーダの訓練改善
- Authors: Ligong Han, Sri Harsha Musunuri, Martin Renqiang Min, Ruijiang Gao, Yu
Tian, Dimitris Metaxas
- Abstract要約: StyleGANは、近年、データ生成と操作に関して印象的な成果を上げている。
本稿では, 画像から潜伏空間への逆転過程を容易にし, 実際のデータ再構成を強制することは, より不整合な潜伏空間へと導かれるか?
本稿では,エンコーダとジェネレータをエンドツーエンドに最適化したスタイルベースのオートエンコーダをトレーニングする手法について述べる。
- 参考スコア(独自算出の注目度): 21.51697087024866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: StyleGANs have shown impressive results on data generation and manipulation
in recent years, thanks to its disentangled style latent space. A lot of
efforts have been made in inverting a pretrained generator, where an encoder is
trained ad hoc after the generator is trained in a two-stage fashion. In this
paper, we focus on style-based generators asking a scientific question: Does
forcing such a generator to reconstruct real data lead to more disentangled
latent space and make the inversion process from image to latent space easy? We
describe a new methodology to train a style-based autoencoder where the encoder
and generator are optimized end-to-end. We show that our proposed model
consistently outperforms baselines in terms of image inversion and generation
quality. Supplementary, code, and pretrained models are available on the
project website.
- Abstract(参考訳): StyleGANは近年、データ生成と操作に関して驚くべき成果を上げている。
プリトレーニングされたジェネレータの反転には多くの取り組みがなされており、2段階の方法でジェネレータを訓練した後、エンコーダをアドホックで訓練する。
本稿では,そのような生成器に実データを再構成させると,より不連続な潜在空間が生まれ,画像から潜在空間への反転処理が容易になるか,という科学的な問いに焦点をあてる。
本稿では,エンコーダとジェネレータをエンドツーエンドに最適化したスタイルベースのオートエンコーダをトレーニングする手法を提案する。
提案モデルは,画像インバージョンと生成品質において,ベースラインを一貫して上回っていることを示す。
追加、コード、事前訓練されたモデルはプロジェクトのウェブサイトで入手できる。
関連論文リスト
- StyleInV: A Temporal Style Modulated Inversion Network for Unconditional
Video Generation [73.54398908446906]
本稿では,GANのための学習型反転ネットワークを用いた新しいモーションジェネレータの設計を提案する。
本手法は,既訓練のStyleGANジェネレータとエンコーダをペアにした場合に,簡単な微調整でスタイル転送をサポートする。
論文 参考訳(メタデータ) (2023-08-31T17:59:33Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - Towards Accurate Image Coding: Improved Autoregressive Image Generation
with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。
画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:05Z) - Gradient Adjusting Networks for Domain Inversion [82.72289618025084]
StyleGAN2はセマンティック編集をサポートする強力な画像生成エンジンであることが実証された。
本稿では,画像毎の最適化手法を提案する。この手法は,生成元の重みを局所的に編集できるように,StyleGAN2ジェネレータをチューニングする。
我々の実験は、この非常にアクティブな領域における最先端技術よりも大きなパフォーマンス差を示している。
論文 参考訳(メタデータ) (2023-02-22T14:47:57Z) - Spatial Steerability of GANs via Self-Supervision from Discriminator [123.27117057804732]
本稿では,GANの空間的ステアビリティを向上させるための自己教師型アプローチを提案する。
具体的には、空間帰納バイアスとして生成モデルの中間層に符号化されるランダムなガウス熱マップを設計する。
推論中、ユーザは直感的に空間のヒートマップと対話し、シーンのレイアウトを調整したり、移動したり、オブジェクトを削除したりすることで、出力画像を編集することができる。
論文 参考訳(メタデータ) (2023-01-20T07:36:29Z) - Talking Head from Speech Audio using a Pre-trained Image Generator [5.659018934205065]
音声音声と1つの「同一性」画像から音声の高精細度映像を生成する手法を提案する。
我々は、各フレームをStyleGANの潜在空間の点としてモデル化し、ビデオが潜在空間の軌跡に対応するようにした。
我々は、音声発話から画像生成装置の潜時空間の変位へマッピングするために、繰り返しニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2022-09-09T11:20:37Z) - Feature-Style Encoder for Style-Based GAN Inversion [1.9116784879310027]
本稿では,特徴型エンコーダ(Feature-Style encoder)と呼ばれる,GANインバージョンのための新しいアーキテクチャを提案する。
本モデルは,事前学習したスタイルベースGANモデルの潜在空間から,実画像の正確な逆変換を実現する。
エンコーダ構造のおかげで、モデルは高速で正確な画像編集を可能にする。
論文 参考訳(メタデータ) (2022-02-04T15:19:34Z) - Autoencoding Video Latents for Adversarial Video Generation [0.0]
AVLAEは2ストリームの遅延オートエンコーダであり、ビデオ配信は敵の訓練によって学習される。
提案手法は, 発生器の明示的な構造構成を伴わずとも, 動きや外見の符号を乱すことを学習できることを実証する。
論文 参考訳(メタデータ) (2022-01-18T11:42:14Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - Toward Spatially Unbiased Generative Models [19.269719158344508]
最近の画像生成モデルは顕著な生成性能を示している。
しかし、それらは、空間バイアスと呼ばれるデータセットの強い位置優先を反映している。
生成元は空間的コンテンツを描画するために暗黙的な位置エンコーディングに頼っていると論じる。
論文 参考訳(メタデータ) (2021-08-03T04:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。