論文の概要: Revisiting Latent Space of GAN Inversion for Real Image Editing
- arxiv url: http://arxiv.org/abs/2307.08995v1
- Date: Tue, 18 Jul 2023 06:27:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 16:10:59.626200
- Title: Revisiting Latent Space of GAN Inversion for Real Image Editing
- Title(参考訳): リアルタイム画像編集のためのGAN変換の潜時空間の再検討
- Authors: Kai Katsumata, Duc Minh Vo, Bei Liu, Hideki Nakayama
- Abstract要約: 本研究では、StyleGANsの超球面以前の$mathcalZ$を再検討し、高能率な潜在空間と組み合わせて、実像を忠実に反転させる結合空間を構築する。
我々は、$mathcalZ+$が、再構成品質を維持しながら最もよく使われる$mathcalW$、$mathcalW+$、$mathcalS$空間を置き換えることができることを示す。
- 参考スコア(独自算出の注目度): 27.035594402482886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The exploration of the latent space in StyleGANs and GAN inversion exemplify
impressive real-world image editing, yet the trade-off between reconstruction
quality and editing quality remains an open problem. In this study, we revisit
StyleGANs' hyperspherical prior $\mathcal{Z}$ and combine it with highly
capable latent spaces to build combined spaces that faithfully invert real
images while maintaining the quality of edited images. More specifically, we
propose $\mathcal{F}/\mathcal{Z}^{+}$ space consisting of two subspaces:
$\mathcal{F}$ space of an intermediate feature map of StyleGANs enabling
faithful reconstruction and $\mathcal{Z}^{+}$ space of an extended StyleGAN
prior supporting high editing quality. We project the real images into the
proposed space to obtain the inverted codes, by which we then move along
$\mathcal{Z}^{+}$, enabling semantic editing without sacrificing image quality.
Comprehensive experiments show that $\mathcal{Z}^{+}$ can replace the most
commonly-used $\mathcal{W}$, $\mathcal{W}^{+}$, and $\mathcal{S}$ spaces while
preserving reconstruction quality, resulting in reduced distortion of edited
images.
- Abstract(参考訳): StyleGANsとGANインバージョンにおける潜伏空間の探索は、印象的な実世界の画像編集を実証するが、再構築品質と編集品質のトレードオフは未解決の問題である。
本研究では、StyleGANsの超球面以前の$\mathcal{Z}$を再検討し、高機能な潜在空間と組み合わせて、編集された画像の品質を維持しつつ、実像を忠実に反転させる複合空間を構築する。
より具体的には、2つの部分空間からなる$\mathcal{f}/\mathcal{z}^{+}$空間を提案する。 $\mathcal{f}$ space of a intermediate feature map of stylegans enabling faithful reconstruction and $\mathcal{z}^{+}$ space of an extended stylegan before supported high editing quality。
提案した空間に実際のイメージを投影して逆コードを取得し、そこから$\mathcal{Z}^{+}$を移動し、画像品質を犠牲にすることなくセマンティックな編集を可能にする。
総合的な実験により、$\mathcal{z}^{+}$ は最も一般的に使われている$\mathcal{w}$、$\mathcal{w}^{+}$、$\mathcal{s}$スペースを置き換えることができることが示され、結果として編集された画像の歪みが減少する。
関連論文リスト
- Designing a Better Asymmetric VQGAN for StableDiffusion [73.21783102003398]
革命的なテキスト・ツー・イメージ生成器であるStableDiffusionは、VQGANを介して潜時空間の拡散モデルを学ぶ。
2つの単純な設計を持つ新しい非対称VQGANを提案する。
StableDiffusionベースの塗り絵やローカル編集手法で広く用いられる。
論文 参考訳(メタデータ) (2023-06-07T17:56:02Z) - Balancing Reconstruction and Editing Quality of GAN Inversion for Real
Image Editing with StyleGAN Prior Latent Space [27.035594402482886]
StyleGANsの超球面前の$mathcalZ$と$mathcalZ+$を再検討し、それらをセミナルなGANインバージョンメソッドに統合し、編集品質を改善する。
この拡張はStyleGANの助けを借りて高度な編集品質を実現する。
論文 参考訳(メタデータ) (2023-05-31T23:27:07Z) - Make It So: Steering StyleGAN for Any Image Inversion and Editing [16.337519991964367]
StyleGANの歪んだスタイル表現は、潜伏変数を操作することで強力な画像編集を可能にする。
既存のGANインバージョン手法は、編集方向の維持と現実的な結果の獲得に苦慮している。
我々は、一般的な$mathcalW$(遅延スタイル)空間ではなく、$mathcalZ$(ノイズ)空間で動作する新しいGAN逆変換法であるMake It Soを提案する。
論文 参考訳(メタデータ) (2023-04-27T17:59:24Z) - P+: Extended Textual Conditioning in Text-to-Image Generation [50.823884280133626]
テキスト・ツー・イメージ・モデルでは$P+$と呼ばれる拡張テキスト・コンディショニング・スペースを導入します。
拡張空間は画像合成に対してより密接な制御と制御を提供することを示す。
さらに、拡張テキスト変換(XTI)を導入し、画像は$P+$に変換され、層単位のトークンで表現される。
論文 参考訳(メタデータ) (2023-03-16T17:38:15Z) - Towards Arbitrary Text-driven Image Manipulation via Space Alignment [49.3370305074319]
スペースアライメント(TMSA)を用いた新しいテキスト駆動画像操作フレームワークを提案する。
TMSAはCLIPとStyleGAN空間で同じセマンティック領域を整列することを目的としている。
このフレームワークは、追加コストなしで任意の画像編集モードをサポートすることができる。
論文 参考訳(メタデータ) (2023-01-25T16:20:01Z) - Delving StyleGAN Inversion for Image Editing: A Foundation Latent Space
Viewpoint [76.00222741383375]
GANのインバージョンとStyleGANによる編集は、入力されたイメージを(mathcalW$, $mathcalW+$, $mathcalF$)埋め込みスペースにマッピングし、画像の忠実さと意味のある操作を同時に維持する。
最近のGANインバージョンメソッドでは、編集性を維持しながら再構築の忠実性を改善するために$mathcalW+$と$mathcalF$を探索する。
我々は、$mathcalW$と正確な潜伏者のための画像空間を整列するために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2022-11-21T13:35:32Z) - Spatially-Adaptive Multilayer Selection for GAN Inversion and Editing [57.46189236379433]
本稿では,StyleGAN2 など,GAN の潜在空間における複雑な画像を反転・編集する手法を提案する。
我々のキーとなる考え方は、画像の難易度に逆過程を空間的に適応させることで、レイヤーの集合による逆転を探索することである。
論文 参考訳(メタデータ) (2022-06-16T17:57:49Z) - Transforming the Latent Space of StyleGAN for Real Face Editing [35.93066942205814]
本稿では、StyleGANのマッピングネットワークにおける全接続層を、注意に基づく変換器に置き換えることで、潜在空間を拡張することを提案する。
この単純で効果的なテクニックは、前述の2つの空間を統合して、$W$++と呼ばれる新しい潜在空間に変換する。
修正されたStyleGANは、従来のStyleGANの最先端の世代品質を、適度に優れた多様性で維持しています。
しかし、さらに重要なのは、提案された$W$++スペースは、再構築品質と編集品質の両方において優れたパフォーマンスを達成することだ。
論文 参考訳(メタデータ) (2021-05-29T06:42:23Z) - Bridging Unpaired Facial Photos And Sketches By Line-drawings [5.589846737887013]
非ペアデータを用いて顔のスケッチ合成モデルを学習する新しい手法を提案する。
画像とスケッチの両方を,ニューラルスタイルの転送手法を用いて線画にマッピングする。
実験の結果、sRenderはマルチスタイルのスケッチを生成することができ、既存の未ペア画像から画像への変換方法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2021-02-01T04:51:46Z) - In-Domain GAN Inversion for Real Image Editing [56.924323432048304]
トレーニング済みのGANジェネレータに実際のイメージを送出する一般的な方法は、遅延コードに戻すことである。
既存の反転法は、通常、画素値によってターゲット画像の再構成にフォーカスするが、反転したコードは元の潜伏空間のセマンティックドメインに着陸しない。
本稿では、入力画像を忠実に再構成し、変換されたコードが編集に意味のある意味を持つようにするためのドメイン内GAN逆変換手法を提案する。
論文 参考訳(メタデータ) (2020-03-31T18:20:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。