論文の概要: Delving StyleGAN Inversion for Image Editing: A Foundation Latent Space
Viewpoint
- arxiv url: http://arxiv.org/abs/2211.11448v3
- Date: Sun, 26 Mar 2023 18:25:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 01:40:37.756419
- Title: Delving StyleGAN Inversion for Image Editing: A Foundation Latent Space
Viewpoint
- Title(参考訳): 画像編集のためのDelving StyleGANインバージョン
- Authors: Hongyu Liu and Yibing Song and Qifeng Chen
- Abstract要約: GANのインバージョンとStyleGANによる編集は、入力されたイメージを(mathcalW$, $mathcalW+$, $mathcalF$)埋め込みスペースにマッピングし、画像の忠実さと意味のある操作を同時に維持する。
最近のGANインバージョンメソッドでは、編集性を維持しながら再構築の忠実性を改善するために$mathcalW+$と$mathcalF$を探索する。
我々は、$mathcalW$と正確な潜伏者のための画像空間を整列するために、対照的な学習を導入する。
- 参考スコア(独自算出の注目度): 76.00222741383375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GAN inversion and editing via StyleGAN maps an input image into the embedding
spaces ($\mathcal{W}$, $\mathcal{W^+}$, and $\mathcal{F}$) to simultaneously
maintain image fidelity and meaningful manipulation. From latent space
$\mathcal{W}$ to extended latent space $\mathcal{W^+}$ to feature space
$\mathcal{F}$ in StyleGAN, the editability of GAN inversion decreases while its
reconstruction quality increases. Recent GAN inversion methods typically
explore $\mathcal{W^+}$ and $\mathcal{F}$ rather than $\mathcal{W}$ to improve
reconstruction fidelity while maintaining editability. As $\mathcal{W^+}$ and
$\mathcal{F}$ are derived from $\mathcal{W}$ that is essentially the foundation
latent space of StyleGAN, these GAN inversion methods focusing on
$\mathcal{W^+}$ and $\mathcal{F}$ spaces could be improved by stepping back to
$\mathcal{W}$. In this work, we propose to first obtain the precise latent code
in foundation latent space $\mathcal{W}$. We introduce contrastive learning to
align $\mathcal{W}$ and the image space for precise latent code discovery. %The
obtaining process is by using contrastive learning to align $\mathcal{W}$ and
the image space. Then, we leverage a cross-attention encoder to transform the
obtained latent code in $\mathcal{W}$ into $\mathcal{W^+}$ and $\mathcal{F}$,
accordingly. Our experiments show that our exploration of the foundation latent
space $\mathcal{W}$ improves the representation ability of latent codes in
$\mathcal{W^+}$ and features in $\mathcal{F}$, which yields state-of-the-art
reconstruction fidelity and editability results on the standard benchmarks.
Project page: https://kumapowerliu.github.io/CLCAE.
- Abstract(参考訳): GANの変換とStyleGANによる編集は、入力された画像を埋め込み空間($\mathcal{W}$, $\mathcal{W^+}$, $\mathcal{F}$)にマッピングし、画像の忠実さと意味のある操作を同時に維持する。
潜在空間 $\mathcal{W}$ から拡張潜在空間 $\mathcal{W^+}$ から特徴空間 $\mathcal{F}$ まで、GAN反転の編集性は、その再構成品質が増大するにつれて低下する。
最近の GAN のインバージョン手法では、編集性を維持しながら再現性を改善するために $\mathcal{W^+}$ と $\mathcal{F}$ を探索する。
基本的にstyleganの基礎的潜在空間である$\mathcal{w}$から$\mathcal{w^+}$と$\mathcal{f}$が導出されるので、これらのgan反転法は$\mathcal{w^+}$と$\mathcal{f}$空間にフォーカスし、$\mathcal{w}$に戻ることで改善することができる。
本研究では,まず基礎的潜在空間 $\mathcal{w}$ で正確な潜在コードを取得することを提案する。
我々は、$\mathcal{w}$ と正確な潜在コード発見のための画像空間を調整するために、対比学習を導入する。
% を得るプロセスは、比較学習を用いて$\mathcal{w}$ と画像空間を整合させることである。
次に、クロスアテンションエンコーダを利用して、得られた潜在コードを$\mathcal{w}$と$\mathcal{w^+}$と$\mathcal{f}$に変換する。
我々の実験では、基礎的潜在空間である $\mathcal{w}$ の探索により、$\mathcal{w^+}$ の潜在コードの表現能力が向上し、$\mathcal{f}$ の機能が向上し、標準ベンチマークで最先端の再現性と編集性が得られた。
プロジェクトページ: https://kumapowerliu.github.io/clcae。
関連論文リスト
- Partially Unitary Learning [0.0]
ヒルベルト空間の最適写像 $IN$ of $left|psirightrangle$ と $OUT$ of $left|phirightrangle$ が提示される。
この最適化問題の大域的な最大値を求める反復アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-05-16T17:13:55Z) - Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。
本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。
最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文 参考訳(メタデータ) (2024-02-06T15:39:09Z) - Revisiting Latent Space of GAN Inversion for Real Image Editing [27.035594402482886]
本研究では、StyleGANsの超球面以前の$mathcalZ$を再検討し、高能率な潜在空間と組み合わせて、実像を忠実に反転させる結合空間を構築する。
我々は、$mathcalZ+$が、再構成品質を維持しながら最もよく使われる$mathcalW$、$mathcalW+$、$mathcalS$空間を置き換えることができることを示す。
論文 参考訳(メタデータ) (2023-07-18T06:27:44Z) - Balancing Reconstruction and Editing Quality of GAN Inversion for Real
Image Editing with StyleGAN Prior Latent Space [27.035594402482886]
StyleGANsの超球面前の$mathcalZ$と$mathcalZ+$を再検討し、それらをセミナルなGANインバージョンメソッドに統合し、編集品質を改善する。
この拡張はStyleGANの助けを借りて高度な編集品質を実現する。
論文 参考訳(メタデータ) (2023-05-31T23:27:07Z) - On Machine Learning Knowledge Representation In The Form Of Partially
Unitary Operator. Knowledge Generalizing Operator [0.0]
一般化力の高いML知識表現の新たな形式を開発し,数値的に実装した。
$mathcalU$は$mathitIN$から$mathitOUT$の量子チャネルと見なすことができる。
論文 参考訳(メタデータ) (2022-12-22T06:29:27Z) - On Optimal Learning Under Targeted Data Poisoning [48.907813854832206]
本研究は,学習者によって達成可能な最小のエラー$epsilon=epsilon(eta)$を,そのような敵の存在下で特徴付けることを目的とする。
注目すべきは,上界が決定論的学習者によって達成できることである。
論文 参考訳(メタデータ) (2022-10-06T06:49:48Z) - SPAGHETTI: Editing Implicit Shapes Through Part Aware Generation [85.09014441196692]
本稿では, $mathbfE$diting $mathbfI$mplicit $mathbfS$hapes $mathbfT$hroughを紹介する。
我々のアーキテクチャは、形状セグメントを変換し、補間し、組み合わせることで、暗黙の形状の操作を可能にする。
論文 参考訳(メタデータ) (2022-01-31T12:31:41Z) - On Submodular Contextual Bandits [92.45432756301231]
作用が基底集合の部分集合であり、平均報酬が未知の単調部分モジュラ函数によってモデル化されるような文脈的包帯の問題を考える。
Inverse Gap Weighting 戦略により,提案アルゴリズムは推定関数の局所的最適度を効率よくランダム化することを示す。
論文 参考訳(メタデータ) (2021-12-03T21:42:33Z) - Contextual Recommendations and Low-Regret Cutting-Plane Algorithms [49.91214213074933]
本稿では、ナビゲーションエンジンやレコメンデーションシステムにおけるルーティングアプリケーションによって動機付けられた、コンテキスト線形帯域の次の変種について考察する。
我々は、真の点$w*$と分離オラクルが返す超平面の間の全距離を、低い「回帰」を持つ新しい切断平面アルゴリズムを設計する。
論文 参考訳(メタデータ) (2021-06-09T05:39:05Z) - Phase Transitions in Rate Distortion Theory and Deep Learning [5.145741425164946]
もし$mathcalS$をエンコードするために$mathcalO(R-s)$のエラーを達成できれば、$mathcalS$は$s$で圧縮できると言う。
ある"ニッチ"信号クラスに対して、$mathcalS$が相転移を起こすことを示す。
論文 参考訳(メタデータ) (2020-08-03T16:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。