論文の概要: Transforming the Latent Space of StyleGAN for Real Face Editing
- arxiv url: http://arxiv.org/abs/2105.14230v1
- Date: Sat, 29 May 2021 06:42:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:15:52.998359
- Title: Transforming the Latent Space of StyleGAN for Real Face Editing
- Title(参考訳): リアル顔編集のためのスタイルGANの潜時空間変換
- Authors: Heyi Li, Jinlong Liu, Yunzhi Bai, Huayan Wang, Klaus Mueller
- Abstract要約: 本稿では、StyleGANのマッピングネットワークにおける全接続層を、注意に基づく変換器に置き換えることで、潜在空間を拡張することを提案する。
この単純で効果的なテクニックは、前述の2つの空間を統合して、$W$++と呼ばれる新しい潜在空間に変換する。
修正されたStyleGANは、従来のStyleGANの最先端の世代品質を、適度に優れた多様性で維持しています。
しかし、さらに重要なのは、提案された$W$++スペースは、再構築品質と編集品質の両方において優れたパフォーマンスを達成することだ。
- 参考スコア(独自算出の注目度): 35.93066942205814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent advances in semantic manipulation using StyleGAN, semantic
editing of real faces remains challenging. The gap between the $W$ space and
the $W$+ space demands an undesirable trade-off between reconstruction quality
and editing quality. To solve this problem, we propose to expand the latent
space by replacing fully-connected layers in the StyleGAN's mapping network
with attention-based transformers. This simple and effective technique
integrates the aforementioned two spaces and transforms them into one new
latent space called $W$++. Our modified StyleGAN maintains the state-of-the-art
generation quality of the original StyleGAN with moderately better diversity.
But more importantly, the proposed $W$++ space achieves superior performance in
both reconstruction quality and editing quality. Despite these significant
advantages, our $W$++ space supports existing inversion algorithms and editing
methods with only negligible modifications thanks to its structural similarity
with the $W/W$+ space. Extensive experiments on the FFHQ dataset prove that our
proposed $W$++ space is evidently more preferable than the previous $W/W$+
space for real face editing. The code is publicly available for research
purposes at https://github.com/AnonSubm2021/TransStyleGAN.
- Abstract(参考訳): StyleGANを用いたセマンティック操作の最近の進歩にもかかわらず、実際の顔のセマンティック編集は依然として困難である。
w$スペースとw$+スペースのギャップは、復元品質と編集品質の間の望ましくないトレードオフを必要とする。
そこで本研究では,スタイルガンマッピングネットワークの完全接続層を注意に基づくトランスフォーマーに置き換え,潜在空間の拡大を提案する。
この単純で効果的なテクニックは、前述の2つの空間を統合し、$w$++と呼ばれる新しい潜在空間に変換する。
修正されたStyleGANは、従来のStyleGANの最先端の世代品質をある程度の多様性で維持しています。
さらに重要なことに、提案された$w$++スペースは、コンストラクション品質と編集品質の両方において優れたパフォーマンスを達成している。
このような大きな利点にもかかわらず、$w$++スペースは、$w/w$+スペースの構造的類似性によって、既存のインバージョンアルゴリズムと編集メソッドのみをサポートする。
FFHQデータセットの大規模な実験により、提案した$W$++スペースが、実際の顔編集のための以前の$W/W$+スペースよりも明らかに好ましいことが証明された。
このコードは https://github.com/AnonSubm2021/TransStyleGAN で公開されている。
関連論文リスト
- StylePrompter: All Styles Need Is Attention [21.760753546313403]
StyleGANは、GAN(Generative Adversarial Networks)の対応する遅延コードに画像を変換することを目的としている。
本稿では,トークンレベルで$mathcalW+$遅延コードを予測するために,階層型視覚トランスフォーマーのバックボーンを革新的に導入する。
そして、StylePrompterがより不整合な$mathcalW+$にあることを証明し、SMARTの可制御性を示す。
論文 参考訳(メタデータ) (2023-07-30T07:23:44Z) - Revisiting Latent Space of GAN Inversion for Real Image Editing [27.035594402482886]
本研究では、StyleGANsの超球面以前の$mathcalZ$を再検討し、高能率な潜在空間と組み合わせて、実像を忠実に反転させる結合空間を構築する。
我々は、$mathcalZ+$が、再構成品質を維持しながら最もよく使われる$mathcalW$、$mathcalW+$、$mathcalS$空間を置き換えることができることを示す。
論文 参考訳(メタデータ) (2023-07-18T06:27:44Z) - Balancing Reconstruction and Editing Quality of GAN Inversion for Real
Image Editing with StyleGAN Prior Latent Space [27.035594402482886]
StyleGANsの超球面前の$mathcalZ$と$mathcalZ+$を再検討し、それらをセミナルなGANインバージョンメソッドに統合し、編集品質を改善する。
この拡張はStyleGANの助けを借りて高度な編集品質を実現する。
論文 参考訳(メタデータ) (2023-05-31T23:27:07Z) - Make It So: Steering StyleGAN for Any Image Inversion and Editing [16.337519991964367]
StyleGANの歪んだスタイル表現は、潜伏変数を操作することで強力な画像編集を可能にする。
既存のGANインバージョン手法は、編集方向の維持と現実的な結果の獲得に苦慮している。
我々は、一般的な$mathcalW$(遅延スタイル)空間ではなく、$mathcalZ$(ノイズ)空間で動作する新しいGAN逆変換法であるMake It Soを提案する。
論文 参考訳(メタデータ) (2023-04-27T17:59:24Z) - P+: Extended Textual Conditioning in Text-to-Image Generation [50.823884280133626]
テキスト・ツー・イメージ・モデルでは$P+$と呼ばれる拡張テキスト・コンディショニング・スペースを導入します。
拡張空間は画像合成に対してより密接な制御と制御を提供することを示す。
さらに、拡張テキスト変換(XTI)を導入し、画像は$P+$に変換され、層単位のトークンで表現される。
論文 参考訳(メタデータ) (2023-03-16T17:38:15Z) - Towards Arbitrary Text-driven Image Manipulation via Space Alignment [49.3370305074319]
スペースアライメント(TMSA)を用いた新しいテキスト駆動画像操作フレームワークを提案する。
TMSAはCLIPとStyleGAN空間で同じセマンティック領域を整列することを目的としている。
このフレームワークは、追加コストなしで任意の画像編集モードをサポートすることができる。
論文 参考訳(メタデータ) (2023-01-25T16:20:01Z) - Delving StyleGAN Inversion for Image Editing: A Foundation Latent Space
Viewpoint [76.00222741383375]
GANのインバージョンとStyleGANによる編集は、入力されたイメージを(mathcalW$, $mathcalW+$, $mathcalF$)埋め込みスペースにマッピングし、画像の忠実さと意味のある操作を同時に維持する。
最近のGANインバージョンメソッドでは、編集性を維持しながら再構築の忠実性を改善するために$mathcalW+$と$mathcalF$を探索する。
我々は、$mathcalW$と正確な潜伏者のための画像空間を整列するために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2022-11-21T13:35:32Z) - Overparameterization Improves StyleGAN Inversion [66.8300251627992]
既存の反転アプローチは、有望だが不完全な結果が得られる。
これにより、エンコーダを必要とせずに、ほぼ完璧な画像再構成が得られることを示す。
われわれのアプローチは、画像間の現実的な補間による編集可能性も維持する。
論文 参考訳(メタデータ) (2022-05-12T18:42:43Z) - TransEditor: Transformer-Based Dual-Space GAN for Highly Controllable
Facial Editing [110.82128064489237]
本稿では、より制御しやすい編集を実現するために、デュアルスペースGANにおけるインタラクションを強化する新しいトランスフォーマーベースのフレームワークであるTransEditorを提案する。
画像品質と編集能力において提案するフレームワークの優位性を示す実験により,高い制御性を有する顔編集におけるTransEditorの有効性が示唆された。
論文 参考訳(メタデータ) (2022-03-31T17:58:13Z) - HyperInverter: Improving StyleGAN Inversion via Hypernetwork [12.173568611144628]
現在のGANインバージョン手法は、以下の3つの要件の少なくとも1つを満たさない:高い再構成品質、編集性、高速推論。
本研究では,全ての要件を同時に満たす新しい2段階戦略を提案する。
我々の手法は完全にエンコーダベースであり、非常に高速な推論をもたらす。
論文 参考訳(メタデータ) (2021-12-01T18:56:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。