論文の概要: LSAP: Rethinking Inversion Fidelity, Perception and Editability in GAN
Latent Space
- arxiv url: http://arxiv.org/abs/2209.12746v1
- Date: Mon, 26 Sep 2022 14:55:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 14:10:01.781879
- Title: LSAP: Rethinking Inversion Fidelity, Perception and Editability in GAN
Latent Space
- Title(参考訳): LSAP: GANラテント空間におけるインバージョン忠実度、知覚、編集性の再考
- Authors: Cao Pu, Lu Yang, Dongxv Liu, Zhiwei Liu, Wenguan Wang, Shan Li, Qing
Song
- Abstract要約: 本稿では,正規化スタイル空間と$mathcalSN$ Cosine Distanceを導入し,逆法の不整合を計測する。
提案するSNCDは,エンコーダ方式と最適化方式の両方で最適化可能であり,一様解を実現することができる。
- 参考スコア(独自算出の注目度): 42.56147568941768
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the methods evolve, inversion is mainly divided into two steps. The first
step is Image Embedding, in which an encoder or optimization process embeds
images to get the corresponding latent codes. Afterward, the second step aims
to refine the inversion and editing results, which we named Result Refinement.
Although the second step significantly improves fidelity, perception and
editability are almost unchanged, deeply dependent on inverse latent codes
attained in the first step. Therefore, a crucial problem is gaining the latent
codes with better perception and editability while retaining the reconstruction
fidelity. In this work, we first point out that these two characteristics are
related to the degree of alignment (or disalignment) of the inverse codes with
the synthetic distribution. Then, we propose Latent Space Alignment Inversion
Paradigm (LSAP), which consists of evaluation metric and solution for this
problem. Specifically, we introduce Normalized Style Space ($\mathcal{S^N}$
space) and $\mathcal{S^N}$ Cosine Distance (SNCD) to measure disalignment of
inversion methods. Since our proposed SNCD is differentiable, it can be
optimized in both encoder-based and optimization-based embedding methods to
conduct a uniform solution. Extensive experiments in various domains
demonstrate that SNCD effectively reflects perception and editability, and our
alignment paradigm archives the state-of-the-art in both two steps. Code is
available on https://github.com/caopulan/GANInverter.
- Abstract(参考訳): 方法が進化するにつれて、反転は主に2つのステップに分けられる。
最初のステップはImage Embeddingで、エンコーダまたは最適化プロセスがイメージを埋め込み、対応する潜在コードを取得する。
その後、第2のステップは、インバージョンと編集結果を洗練することを目指しています。
第2のステップは忠実度を大幅に改善するが、知覚と編集性はほとんど変化せず、第1のステップで到達した逆潜時符号に深く依存する。
そのため,再現性を維持しつつ,認識や編集性が向上した潜伏符号の取得が重要な問題となっている。
本稿ではまず,これら2つの特徴が,合成分布と逆符号のアライメント(あるいは不一致)の程度に関係していることを指摘する。
そこで我々は,この問題に対する評価基準と解からなるLatent Space Alignment Inversion Paradigm (LSAP)を提案する。
具体的には,正規化スタイル空間 (\mathcal{S^N}$ space) と $\mathcal{S^N}$ Cosine Distance (SNCD) を導入し,逆法の不整合を測定する。
提案するSNCDは微分可能であるため,エンコーダと最適化方式の両方で最適化し,一様解を求めることができる。
様々な領域における大規模な実験により、SNCDは知覚と編集性を効果的に反映し、アライメントパラダイムは両方のステップで最先端をアーカイブする。
コードはhttps://github.com/caopulan/GANInverterで入手できる。
関連論文リスト
- Finding Quantum Codes via Riemannian Optimization [0.0]
本稿では、既知の量子ノイズチャネルに対して最適に修正可能な部分空間符号を求めるための新しい最適化を提案する。
各候補部分空間コードに対して、コードが完全に修正可能であるかのように、まずユニバーサルリカバリマップを関連付けます。
完全修正可能な符号が見つからないとき、第二の最適化ルーチンが回復クラス写像上で実行され、また適切なスティーフェル多様体でパラメータ化される。
論文 参考訳(メタデータ) (2024-07-11T12:03:41Z) - Equivariant Deep Weight Space Alignment [54.65847470115314]
本稿では,ウェイトアライメント問題を解決するための学習を目的とした新しいフレームワークを提案する。
まず、重み調整が2つの基本対称性に一致することを証明し、それからこれらの対称性を尊重する深いアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-10-20T10:12:06Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - DRSOM: A Dimension Reduced Second-Order Method [13.778619250890406]
信頼的な枠組みの下では,2次法の収束を保ちながら,数方向の情報のみを用いる。
理論的には,この手法は局所収束率と大域収束率が$O(epsilon-3/2)$であり,第1次条件と第2次条件を満たすことを示す。
論文 参考訳(メタデータ) (2022-07-30T13:05:01Z) - Cycle Encoding of a StyleGAN Encoder for Improved Reconstruction and
Editability [76.6724135757723]
GANインバージョンは、事前訓練されたGANの潜在空間に入力イメージを反転させることを目的としている。
GANの逆転の最近の進歩にもかかわらず、歪みと編集性の間のトレードオフを軽減するための課題は残されている。
本稿では、まず入力画像をピボットコードと呼ばれる潜在コードに反転させ、次に、入力画像を正確にピボットコードにマッピングできるようにジェネレータを変更する2段階のアプローチを提案する。
論文 参考訳(メタデータ) (2022-07-19T16:10:16Z) - HyperInverter: Improving StyleGAN Inversion via Hypernetwork [12.173568611144628]
現在のGANインバージョン手法は、以下の3つの要件の少なくとも1つを満たさない:高い再構成品質、編集性、高速推論。
本研究では,全ての要件を同時に満たす新しい2段階戦略を提案する。
我々の手法は完全にエンコーダベースであり、非常に高速な推論をもたらす。
論文 参考訳(メタデータ) (2021-12-01T18:56:05Z) - Boosting Continuous Sign Language Recognition via Cross Modality
Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。
クロスモーダル拡張を用いた新しいアーキテクチャを提案する。
提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文 参考訳(メタデータ) (2020-10-11T15:07:50Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。