論文の概要: StyleMapGAN: Exploiting Spatial Dimensions of Latent in GAN for
Real-time Image Editing
- arxiv url: http://arxiv.org/abs/2104.14754v1
- Date: Fri, 30 Apr 2021 04:43:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-04 01:02:57.219619
- Title: StyleMapGAN: Exploiting Spatial Dimensions of Latent in GAN for
Real-time Image Editing
- Title(参考訳): StyleMapGAN:リアルタイム画像編集のためのGANにおける潜時空間次元の爆発
- Authors: Hyunsu Kim, Yunjey Choi, Junho Kim, Sungjoo Yoo, Youngjung Uh
- Abstract要約: generative adversarial networks (gans) はランダムな潜在ベクトルから現実的な画像を合成する。
ganによる実画像の編集は、実画像を潜在ベクトルに投影するための時間消費最適化(ii)またはエンコーダによる不正確な埋め込みに苦しむ。
StyleMapGANを提案する:中間潜空間は空間次元を持ち、空間的変異体はAdaINを置き換える。
- 参考スコア(独自算出の注目度): 19.495153059077367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative adversarial networks (GANs) synthesize realistic images from
random latent vectors. Although manipulating the latent vectors controls the
synthesized outputs, editing real images with GANs suffers from i)
time-consuming optimization for projecting real images to the latent vectors,
ii) or inaccurate embedding through an encoder. We propose StyleMapGAN: the
intermediate latent space has spatial dimensions, and a spatially variant
modulation replaces AdaIN. It makes the embedding through an encoder more
accurate than existing optimization-based methods while maintaining the
properties of GANs. Experimental results demonstrate that our method
significantly outperforms state-of-the-art models in various image manipulation
tasks such as local editing and image interpolation. Last but not least,
conventional editing methods on GANs are still valid on our StyleMapGAN. Source
code is available at https://github.com/naver-ai/StyleMapGAN.
- Abstract(参考訳): generative adversarial networks (gans) はランダムな潜在ベクトルから現実的な画像を合成する。
潜時ベクトルの操作は合成された出力を制御するが、実画像をGANで編集することは、実画像を潜時ベクトルに投影するための時間のかかる最適化、すなわちエンコーダによる不正確な埋め込みに苦しむ。
そこで我々はStyleMapGANを提案する: 中間潜伏空間は空間次元を持ち、空間変動変調はAdaINに取って代わる。
エンコーダによる埋め込みは、ganの特性を維持しつつ、既存の最適化ベースのメソッドよりも正確である。
実験の結果, 局所編集や画像補間などの様々な画像操作タスクにおいて, 本手法が最先端モデルを大幅に上回ることがわかった。
最後に、GANの従来の編集方法は、StyleMapGANでまだ有効です。
ソースコードはhttps://github.com/naver-ai/stylemapganで入手できる。
関連論文リスト
- In-Domain GAN Inversion for Faithful Reconstruction and Editability [132.68255553099834]
ドメイン誘導型ドメイン正規化とエンコーダで構成されたドメイン内GANインバージョンを提案し、事前学習されたGANモデルのネイティブ潜在空間における反転コードを正規化する。
エンコーダ構造,開始反転点,および逆パラメータ空間の効果を総合的に解析し,再構成品質と編集特性とのトレードオフを観察する。
論文 参考訳(メタデータ) (2023-09-25T08:42:06Z) - Gradient Adjusting Networks for Domain Inversion [82.72289618025084]
StyleGAN2はセマンティック編集をサポートする強力な画像生成エンジンであることが実証された。
本稿では,画像毎の最適化手法を提案する。この手法は,生成元の重みを局所的に編集できるように,StyleGAN2ジェネレータをチューニングする。
我々の実験は、この非常にアクティブな領域における最先端技術よりも大きなパフォーマンス差を示している。
論文 参考訳(メタデータ) (2023-02-22T14:47:57Z) - Spatial Steerability of GANs via Self-Supervision from Discriminator [123.27117057804732]
本稿では,GANの空間的ステアビリティを向上させるための自己教師型アプローチを提案する。
具体的には、空間帰納バイアスとして生成モデルの中間層に符号化されるランダムなガウス熱マップを設計する。
推論中、ユーザは直感的に空間のヒートマップと対話し、シーンのレイアウトを調整したり、移動したり、オブジェクトを削除したりすることで、出力画像を編集することができる。
論文 参考訳(メタデータ) (2023-01-20T07:36:29Z) - Mask-Guided Discovery of Semantic Manifolds in Generative Models [0.0]
StyleGAN2は、低次元の潜在空間内のランダムベクトルから人間の顔の画像を生成する。
モデルはブラックボックスとして動作し、出力の制御も、データから学んだ構造についての洞察も提供しない。
顔の空間的局所化領域の変化の多様体を探索する手法を提案する。
論文 参考訳(メタデータ) (2021-05-15T18:06:38Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z) - Navigating the GAN Parameter Space for Semantic Image Editing [35.622710993417456]
Generative Adversarial Networks (GAN) はビジュアル編集に必須のツールである。
本稿では,StyleGAN2のような最先端のモデルで実現可能な視覚効果の範囲を大きく広げる。
論文 参考訳(メタデータ) (2020-11-27T15:38:56Z) - Swapping Autoencoder for Deep Image Manipulation [94.33114146172606]
画像操作に特化して設計されたディープモデルであるSwapping Autoencoderを提案する。
キーとなるアイデアは、2つの独立したコンポーネントで画像をエンコードし、交換された組み合わせをリアルなイメージにマップするように強制することだ。
複数のデータセットの実験により、我々のモデルはより良い結果が得られ、最近の生成モデルと比較してかなり効率が良いことが示されている。
論文 参考訳(メタデータ) (2020-07-01T17:59:57Z) - In-Domain GAN Inversion for Real Image Editing [56.924323432048304]
トレーニング済みのGANジェネレータに実際のイメージを送出する一般的な方法は、遅延コードに戻すことである。
既存の反転法は、通常、画素値によってターゲット画像の再構成にフォーカスするが、反転したコードは元の潜伏空間のセマンティックドメインに着陸しない。
本稿では、入力画像を忠実に再構成し、変換されたコードが編集に意味のある意味を持つようにするためのドメイン内GAN逆変換手法を提案する。
論文 参考訳(メタデータ) (2020-03-31T18:20:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。