論文の概要: 3D GAN Inversion with Pose Optimization
- arxiv url: http://arxiv.org/abs/2210.07301v2
- Date: Mon, 17 Oct 2022 12:53:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 13:27:01.372188
- Title: 3D GAN Inversion with Pose Optimization
- Title(参考訳): ポーズ最適化による3次元GANインバージョン
- Authors: Jaehoon Ko, Kyusun Cho, Daewon Choi, Kwangrok Ryoo, Seungryong Kim
- Abstract要約: 本稿では,カメラ視点と潜時符号を同時に推論し,マルチビューで一貫したセマンティック画像編集を可能にする一般化可能な3D GANインバージョン手法を提案する。
画像の再構成と編集を定量的かつ質的に行い、さらに2D GANベースの編集と比較した。
- 参考スコア(独自算出の注目度): 26.140281977885376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the recent advances in NeRF-based 3D aware GANs quality, projecting an
image into the latent space of these 3D-aware GANs has a natural advantage over
2D GAN inversion: not only does it allow multi-view consistent editing of the
projected image, but it also enables 3D reconstruction and novel view synthesis
when given only a single image. However, the explicit viewpoint control acts as
a main hindrance in the 3D GAN inversion process, as both camera pose and
latent code have to be optimized simultaneously to reconstruct the given image.
Most works that explore the latent space of the 3D-aware GANs rely on
ground-truth camera viewpoint or deformable 3D model, thus limiting their
applicability. In this work, we introduce a generalizable 3D GAN inversion
method that infers camera viewpoint and latent code simultaneously to enable
multi-view consistent semantic image editing. The key to our approach is to
leverage pre-trained estimators for better initialization and utilize the
pixel-wise depth calculated from NeRF parameters to better reconstruct the
given image. We conduct extensive experiments on image reconstruction and
editing both quantitatively and qualitatively, and further compare our results
with 2D GAN-based editing to demonstrate the advantages of utilizing the latent
space of 3D GANs. Additional results and visualizations are available at
https://3dgan-inversion.github.io .
- Abstract(参考訳): 近年のNeRFベースの3D対応GANの品質向上により、これらの3D対応GANの潜在空間に画像を投影することは、2D GANインバージョンよりも自然な優位性を持つ。
しかし、カメラポーズと潜時コードの両方を同時に最適化し、所定の画像を再構成する必要があるため、3D GANインバージョンプロセスにおいて、明示的な視点制御が主な障害となる。
3D対応のGANの潜伏空間を探索するほとんどの作品は、地平線のカメラ視点や変形可能な3Dモデルに依存しているため、適用性が制限される。
本研究では,カメラ視点と遅延コードとを同時に推論し,マルチビューで一貫したセマンティック画像編集を可能にする一般化可能な3D GANインバージョン手法を提案する。
提案手法の鍵となるのは、事前学習した推定器を利用して、NeRFパラメータから算出した画素幅の深さを利用して、画像の再構成を改善することである。
定量的および定性的に画像再構成と編集に関する広範な実験を行い, 2次元ganによる編集結果と比較し, 3次元ganの潜在空間を利用する利点を実証した。
さらなる結果と可視化はhttps://3dgan-inversion.github.ioで見ることができる。
関連論文リスト
- TriPlaneNet: An Encoder for EG3D Inversion [1.9567015559455132]
NeRFをベースとしたGANは、人間の頭部の高分解能かつ高忠実な生成モデリングのための多くのアプローチを導入している。
2D GANインバージョンのための普遍的最適化に基づく手法の成功にもかかわらず、3D GANに適用された手法は、結果を新しい視点に外挿することができないかもしれない。
本稿では,EG3D生成モデルに提示された3面表現を直接利用することにより,両者のギャップを埋める高速な手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T17:56:20Z) - NeRF-GAN Distillation for Efficient 3D-Aware Generation with
Convolutions [97.27105725738016]
GAN(Generative Adversarial Networks)のようなニューラルラジアンスフィールド(NeRF)と生成モデルの統合は、単一ビュー画像から3D認識生成を変換した。
提案手法は,ポーズ条件付き畳み込みネットワークにおいて,事前学習したNeRF-GANの有界遅延空間を再利用し,基礎となる3次元表現に対応する3D一貫性画像を直接生成する手法である。
論文 参考訳(メタデータ) (2023-03-22T18:59:48Z) - Make Encoder Great Again in 3D GAN Inversion through Geometry and
Occlusion-Aware Encoding [25.86312557482366]
3D GANインバージョンは、単一の画像入力から高い再構成忠実度と合理的な3D幾何を同時に達成することを目的としている。
本稿では,最も広く使用されている3D GANモデルの1つであるEG3Dに基づく,新しいエンコーダベースの逆変換フレームワークを提案する。
提案手法は,最大500倍高速に動作しながら,最適化手法に匹敵する印象的な結果が得られる。
論文 参考訳(メタデータ) (2023-03-22T05:51:53Z) - In-N-Out: Faithful 3D GAN Inversion with Volumetric Decomposition for Face Editing [28.790900756506833]
3D対応のGANは、2D対応の編集機能を保ちながら、ビュー合成のための新しい機能を提供する。
GANインバージョンは、入力画像や動画を再構成する潜時コードを求める重要なステップであり、この潜時コードを操作することで様々な編集タスクを可能にする。
我々は3次元GANの入力からOODオブジェクトを明示的にモデル化することでこの問題に対処する。
論文 参考訳(メタデータ) (2023-02-09T18:59:56Z) - Self-Supervised Geometry-Aware Encoder for Style-Based 3D GAN Inversion [115.82306502822412]
StyleGANは、画像インバージョンと潜時編集による2次元顔再構成とセマンティック編集において大きな進歩を遂げている。
対応する汎用的な3D GANインバージョンフレームワークがまだ欠けており、3D顔再構成とセマンティック編集の応用が制限されている。
本研究では,その3次元形状と詳細なテクスチャを忠実に復元するために,単一の顔画像から潜伏コードを予測する3D GAN逆変換の課題について検討する。
論文 参考訳(メタデータ) (2022-12-14T18:49:50Z) - 3D GAN Inversion with Facial Symmetry Prior [42.22071135018402]
3D GANとGANの反転法を関連付けて、実際の画像をジェネレータの潜伏空間に投影することは自然である。
顔の対称性を事前に導入することで3D GANのインバージョンを促進する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-11-30T11:57:45Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - Improving 3D-aware Image Synthesis with A Geometry-aware Discriminator [68.0533826852601]
3Dを意識した画像合成は、画像のリアルな2D画像の描画が可能な生成モデルを学ぶことを目的としている。
既存の方法では、適度な3D形状が得られない。
本稿では,3次元GANの改良を目的とした幾何学的識別器を提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:37Z) - 3D-FM GAN: Towards 3D-Controllable Face Manipulation [43.99393180444706]
3D-FM GANは、3D制御可能な顔操作に特化した新しい条件付きGANフレームワークである。
入力された顔画像と3D編集の物理的レンダリングの両方をStyleGANの潜在空間に注意深く符号化することにより、画像生成装置は高品質でアイデンティティを保存し、3D制御可能な顔操作を提供する。
提案手法は, 編集性の向上, アイデンティティの保存性の向上, 写真リアリズムの向上など, 様々なタスクにおいて, 先行技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-08-24T01:33:13Z) - GAN2X: Non-Lambertian Inverse Rendering of Image GANs [85.76426471872855]
GAN2Xは、教師なし画像のみをトレーニングに使用する、教師なし逆レンダリングの新しい手法である。
3次元形状を主眼とする従来のShape-from-GANアプローチとは異なり、GANが生成した擬似ペアデータを利用して、非ランベルト材料特性を復元する試みは初めてである。
実験により, GAN2Xは2次元画像を3次元形状, アルベド, 特異な特性に正確に分解し, 教師なしの単視3次元顔再構成の最先端性能を実現することができた。
論文 参考訳(メタデータ) (2022-06-18T16:58:49Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。