論文の概要: HyperInverter: Improving StyleGAN Inversion via Hypernetwork
- arxiv url: http://arxiv.org/abs/2112.00719v1
- Date: Wed, 1 Dec 2021 18:56:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 14:53:12.915176
- Title: HyperInverter: Improving StyleGAN Inversion via Hypernetwork
- Title(参考訳): Hyper Inverter: HypernetworkによるStyleGANインバージョンの改善
- Authors: Tan M. Dinh, Anh Tuan Tran, Rang Nguyen, Binh-Son Hua
- Abstract要約: 現在のGANインバージョン手法は、以下の3つの要件の少なくとも1つを満たさない:高い再構成品質、編集性、高速推論。
本研究では,全ての要件を同時に満たす新しい2段階戦略を提案する。
我々の手法は完全にエンコーダベースであり、非常に高速な推論をもたらす。
- 参考スコア(独自算出の注目度): 12.173568611144628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world image manipulation has achieved fantastic progress in recent years
as a result of the exploration and utilization of GAN latent spaces. GAN
inversion is the first step in this pipeline, which aims to map the real image
to the latent code faithfully. Unfortunately, the majority of existing GAN
inversion methods fail to meet at least one of the three requirements listed
below: high reconstruction quality, editability, and fast inference. We present
a novel two-phase strategy in this research that fits all requirements at the
same time. In the first phase, we train an encoder to map the input image to
StyleGAN2 $\mathcal{W}$-space, which was proven to have excellent editability
but lower reconstruction quality. In the second phase, we supplement the
reconstruction ability in the initial phase by leveraging a series of
hypernetworks to recover the missing information during inversion. These two
steps complement each other to yield high reconstruction quality thanks to the
hypernetwork branch and excellent editability due to the inversion done in the
$\mathcal{W}$-space. Our method is entirely encoder-based, resulting in
extremely fast inference. Extensive experiments on two challenging datasets
demonstrate the superiority of our method.
- Abstract(参考訳): 実世界の画像操作は, GAN潜伏空間の探索と利用により近年, 目覚ましい進歩を遂げている。
GANインバージョンはこのパイプラインの最初のステップであり、実際のイメージを永続的なコードに忠実にマッピングすることを目的としている。
残念なことに、既存のGANインバージョン手法の大部分は、以下の3つの要件のうちの少なくとも1つを満たさない:高い再構築品質、編集性、高速推論。
本研究では,全ての要件を同時に満たす新しい2段階戦略を提案する。
第1フェーズでは、入力画像をStyleGAN2 $\mathcal{W}$-spaceにマッピングするようにエンコーダを訓練する。
第2フェーズでは、インバージョン中に欠落した情報を回復するために一連のハイパーネットワークを活用することで、第1フェーズにおける再構築能力を補う。
これらの2つのステップは互いに補完し、ハイパーネットワークブランチと、$\mathcal{W}$-spaceで実行される逆変換による優れた編集性により、高い再構成品質が得られる。
提案手法は完全にエンコーダベースであり,非常に高速に推論できる。
2つの挑戦的なデータセットに対する大規模な実験は、我々の手法の優位性を示している。
関連論文リスト
- In-Domain GAN Inversion for Faithful Reconstruction and Editability [132.68255553099834]
ドメイン誘導型ドメイン正規化とエンコーダで構成されたドメイン内GANインバージョンを提案し、事前学習されたGANモデルのネイティブ潜在空間における反転コードを正規化する。
エンコーダ構造,開始反転点,および逆パラメータ空間の効果を総合的に解析し,再構成品質と編集特性とのトレードオフを観察する。
論文 参考訳(メタデータ) (2023-09-25T08:42:06Z) - Robust GAN inversion [5.1359892878090845]
本稿では,ネイティブの潜伏空間を$W$で処理し,画像の詳細を復元するためにジェネレータネットワークをチューニングする手法を提案する。
Flickr-Faces-HQ と LSUN Church の2つの複雑なデータセットに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2023-08-31T07:47:11Z) - Meta-Auxiliary Network for 3D GAN Inversion [18.777352198191004]
本稿では,新たに開発された3D GANをジェネレータとして利用しながら,新しいメタ補助フレームワークを提案する。
最初の段階では、オフザシェルフインバージョン技術を用いて、入力画像を編集可能な潜在コードに変換する。
補助的ネットワークは、与えられた画像を入力としてジェネレータパラメータを洗練し、畳み込み層の重み付けとボリュームレンダリングのサンプリング位置のオフセットを予測する。
第2段階では、入力された画像に補助ネットワークを高速に適応させるメタラーニングを行い、その後、メタラーニングされた補助ネットワークを介して最終再構成画像を合成する。
論文 参考訳(メタデータ) (2023-05-18T11:26:27Z) - CryoFormer: Continuous Heterogeneous Cryo-EM Reconstruction using
Transformer-based Neural Representations [49.49939711956354]
核電子顕微鏡(cryo-EM)は、タンパク質やその他の生体分子の3D構造を高分解能で再構築することを可能にする。
3次元構造の連続的な動きをノイズやランダムに配向した2次元Creo-EM画像から再構成することは依然として困難である。
我々はCryoFormerを提案する。CryoFormerは連続したヘテロジニアスCryo-EM再構成のための新しいアプローチである。
論文 参考訳(メタデータ) (2023-03-28T18:59:17Z) - ReGANIE: Rectifying GAN Inversion Errors for Accurate Real Image Editing [20.39792009151017]
StyleGANは、セマンティックリッチな潜在スタイル空間を操作することで、生成した画像の柔軟で妥当な編集を可能にする。
実際の画像をその潜在空間に投影することは、反転品質と編集性の間に固有のトレードオフに遭遇する。
本稿では,2つの異なるネットワークをそれぞれ編集と再構築に用い,新しい2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-31T04:38:42Z) - 3D-Aware Encoding for Style-based Neural Radiance Fields [50.118687869198716]
我々は、入力画像をNeRFジェネレータの潜時空間に投影する反転関数を学び、潜時符号に基づいて原画像の新しいビューを合成する。
2次元生成モデルのGANインバージョンと比較して、NeRFインバージョンは、1)入力画像の同一性を維持するだけでなく、2)生成した新規なビューにおいて3D一貫性を確保する必要がある。
スタイルベースNeRFインバージョンのための2段階エンコーダを提案する。
論文 参考訳(メタデータ) (2022-11-12T06:14:12Z) - LSAP: Rethinking Inversion Fidelity, Perception and Editability in GAN
Latent Space [42.56147568941768]
本稿では,正規化スタイル空間と$mathcalSN$ Cosine Distanceを導入し,逆法の不整合を計測する。
提案するSNCDは,エンコーダ方式と最適化方式の両方で最適化可能であり,一様解を実現することができる。
論文 参考訳(メタデータ) (2022-09-26T14:55:21Z) - Cycle Encoding of a StyleGAN Encoder for Improved Reconstruction and
Editability [76.6724135757723]
GANインバージョンは、事前訓練されたGANの潜在空間に入力イメージを反転させることを目的としている。
GANの逆転の最近の進歩にもかかわらず、歪みと編集性の間のトレードオフを軽減するための課題は残されている。
本稿では、まず入力画像をピボットコードと呼ばれる潜在コードに反転させ、次に、入力画像を正確にピボットコードにマッピングできるようにジェネレータを変更する2段階のアプローチを提案する。
論文 参考訳(メタデータ) (2022-07-19T16:10:16Z) - Overparameterization Improves StyleGAN Inversion [66.8300251627992]
既存の反転アプローチは、有望だが不完全な結果が得られる。
これにより、エンコーダを必要とせずに、ほぼ完璧な画像再構成が得られることを示す。
われわれのアプローチは、画像間の現実的な補間による編集可能性も維持する。
論文 参考訳(メタデータ) (2022-05-12T18:42:43Z) - Over-and-Under Complete Convolutional RNN for MRI Reconstruction [57.95363471940937]
MR画像再構成のための最近のディープラーニングに基づく手法は、通常、汎用的なオートエンコーダアーキテクチャを利用する。
OUCR(Over-and-Under Complete Convolu?tional Recurrent Neural Network)を提案する。
提案手法は, トレーニング可能なパラメータの少ない圧縮されたセンシングと, 一般的なディープラーニングに基づく手法に対して, 大幅な改善を実現する。
論文 参考訳(メタデータ) (2021-06-16T15:56:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。