論文の概要: TriPlaneNet: An Encoder for EG3D Inversion
- arxiv url: http://arxiv.org/abs/2303.13497v2
- Date: Wed, 25 Oct 2023 19:22:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-28 02:27:06.928853
- Title: TriPlaneNet: An Encoder for EG3D Inversion
- Title(参考訳): TriPlaneNet:EG3Dインバージョンのためのエンコーダ
- Authors: Ananta R. Bhattarai, Matthias Nie{\ss}ner, Artem Sevastopolsky
- Abstract要約: NeRFをベースとしたGANは、人間の頭部の高分解能かつ高忠実な生成モデリングのための多くのアプローチを導入している。
2D GANインバージョンのための普遍的最適化に基づく手法の成功にもかかわらず、3D GANに適用された手法は、結果を新しい視点に外挿することができないかもしれない。
本稿では,EG3D生成モデルに提示された3面表現を直接利用することにより,両者のギャップを埋める高速な手法を提案する。
- 参考スコア(独自算出の注目度): 1.9567015559455132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in NeRF-based GANs has introduced a number of approaches for
high-resolution and high-fidelity generative modeling of human heads with a
possibility for novel view rendering. At the same time, one must solve an
inverse problem to be able to re-render or modify an existing image or video.
Despite the success of universal optimization-based methods for 2D GAN
inversion, those applied to 3D GANs may fail to extrapolate the result onto the
novel view, whereas optimization-based 3D GAN inversion methods are
time-consuming and can require at least several minutes per image. Fast
encoder-based techniques, such as those developed for StyleGAN, may also be
less appealing due to the lack of identity preservation. Our work introduces a
fast technique that bridges the gap between the two approaches by directly
utilizing the tri-plane representation presented for the EG3D generative model.
In particular, we build upon a feed-forward convolutional encoder for the
latent code and extend it with a fully-convolutional predictor of tri-plane
numerical offsets. The renderings are similar in quality to the ones produced
by optimization-based techniques and outperform the ones by encoder-based
methods. As we empirically prove, this is a consequence of directly operating
in the tri-plane space, not in the GAN parameter space, while making use of an
encoder-based trainable approach. Finally, we demonstrate significantly more
correct embedding of a face image in 3D than for all the baselines, further
strengthened by a probably symmetric prior enabled during training.
- Abstract(参考訳): 近年, 頭部の高分解能・高忠実な生成モデルへの多くのアプローチが提案されており, 新規な視認性レンダリングの可能性も指摘されている。
同時に、既存の画像やビデオの再レンダリングや修正を可能にするために、逆問題を解決する必要がある。
2D GANインバージョンのための普遍的な最適化ベースの手法の成功にもかかわらず、3D GANに適用された手法は、結果を新しいビューに外挿することができないかもしれない。
StyleGAN用に開発されたような高速エンコーダベースの技術は、アイデンティティ保存の欠如により、魅力が低下する可能性がある。
本研究は,EG3D生成モデルに提示された3次元平面表現を直接利用することにより,両者のギャップを埋める高速な手法を提案する。
特に、潜伏符号に対するフィードフォワード畳み込みエンコーダを構築し、三平面数値オフセットの完全畳み込み予測器で拡張する。
レンダリングは、最適化ベースの技術で生成したものと品質が似ており、エンコーダベースの方法よりも優れています。
経験的に証明すると、これは、エンコーダベースのトレーニング可能なアプローチを用いて、ganパラメータ空間ではなく、三平面空間で直接動作した結果である。
最後に, 顔画像の3次元への埋め込みが, ベースライン全体よりも有意に正確であることを示し, トレーニング中に可能となるおそらく対称な事前処理によりさらに強化された。
関連論文リスト
- GPS-Gaussian+: Generalizable Pixel-wise 3D Gaussian Splatting for Real-Time Human-Scene Rendering from Sparse Views [67.34073368933814]
スパースビューカメラ設定下での高解像度画像レンダリングのための一般化可能なガウススプラッティング手法を提案する。
我々は,人間のみのデータや人景データに基づいてガウスパラメータ回帰モジュールをトレーニングし,深度推定モジュールと共同で2次元パラメータマップを3次元空間に引き上げる。
いくつかのデータセットに対する実験により、我々の手法はレンダリング速度を超越しながら最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-11-18T08:18:44Z) - LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。
提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。
3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-18T17:54:34Z) - GaussianPro: 3D Gaussian Splatting with Progressive Propagation [49.918797726059545]
3DGSはStructure-from-Motion (SfM)技術によって生成されるポイントクラウドに大きく依存している。
本稿では, 3次元ガウスの密度化を導くために, プログレッシブ・プログレッシブ・プログレッシブ・ストラテジーを適用した新しい手法を提案する。
提案手法はデータセット上の3DGSを大幅に上回り,PSNRでは1.15dBの改善が見られた。
論文 参考訳(メタデータ) (2024-02-22T16:00:20Z) - Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D
Reconstruction with Transformers [37.14235383028582]
本稿では,フィードフォワード推論を用いて,単一画像から3次元モデルを効率よく生成する,一視点再構成のための新しい手法を提案する。
提案手法では,2つのトランスフォーマーネットワーク,すなわちポイントデコーダとトリプレーンデコーダを用いて,ハイブリッドトリプレーン・ガウス中間表現を用いて3次元オブジェクトを再構成する。
論文 参考訳(メタデータ) (2023-12-14T17:18:34Z) - NeRF-GAN Distillation for Efficient 3D-Aware Generation with
Convolutions [97.27105725738016]
GAN(Generative Adversarial Networks)のようなニューラルラジアンスフィールド(NeRF)と生成モデルの統合は、単一ビュー画像から3D認識生成を変換した。
提案手法は,ポーズ条件付き畳み込みネットワークにおいて,事前学習したNeRF-GANの有界遅延空間を再利用し,基礎となる3次元表現に対応する3D一貫性画像を直接生成する手法である。
論文 参考訳(メタデータ) (2023-03-22T18:59:48Z) - Make Encoder Great Again in 3D GAN Inversion through Geometry and
Occlusion-Aware Encoding [25.86312557482366]
3D GANインバージョンは、単一の画像入力から高い再構成忠実度と合理的な3D幾何を同時に達成することを目的としている。
本稿では,最も広く使用されている3D GANモデルの1つであるEG3Dに基づく,新しいエンコーダベースの逆変換フレームワークを提案する。
提案手法は,最大500倍高速に動作しながら,最適化手法に匹敵する印象的な結果が得られる。
論文 参考訳(メタデータ) (2023-03-22T05:51:53Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - 3D GAN Inversion with Pose Optimization [26.140281977885376]
本稿では,カメラ視点と潜時符号を同時に推論し,マルチビューで一貫したセマンティック画像編集を可能にする一般化可能な3D GANインバージョン手法を提案する。
画像の再構成と編集を定量的かつ質的に行い、さらに2D GANベースの編集と比較した。
論文 参考訳(メタデータ) (2022-10-13T19:06:58Z) - Learned Vertex Descent: A New Direction for 3D Human Model Fitting [64.04726230507258]
画像やスキャンに適合する3次元人体モデルのための新しい最適化手法を提案する。
われわれのアプローチは、非常に異なる体型を持つ服を着た人々の基盤となる身体を捉えることができ、最先端技術と比べて大きな改善を達成できる。
LVDはまた、人間と手の3次元モデル適合にも適用でき、よりシンプルで高速な方法でSOTAに大きな改善が示される。
論文 参考訳(メタデータ) (2022-05-12T17:55:51Z) - H3D-Net: Few-Shot High-Fidelity 3D Head Reconstruction [27.66008315400462]
表面形状を暗黙的に表現する最近の学習手法は、多視点3次元再構成の問題において顕著な結果を示している。
我々はこれらの制限を,数発のフル3次元頭部再構成の特定の問題に対処する。
暗黙の表現を用いて,数千個の不完全な生スキャンから3次元頭部形状モデルを学習する。
論文 参考訳(メタデータ) (2021-07-26T23:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。