論文の概要: 3D-Aware Encoding for Style-based Neural Radiance Fields
- arxiv url: http://arxiv.org/abs/2211.06583v1
- Date: Sat, 12 Nov 2022 06:14:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 16:35:35.289016
- Title: 3D-Aware Encoding for Style-based Neural Radiance Fields
- Title(参考訳): スタイルベースニューラルラジアンスフィールドのための3次元認識符号化
- Authors: Yu-Jhe Li, Tao Xu, Bichen Wu, Ningyuan Zheng, Xiaoliang Dai, Albert
Pumarola, Peizhao Zhang, Peter Vajda, Kris Kitani
- Abstract要約: 我々は、入力画像をNeRFジェネレータの潜時空間に投影する反転関数を学び、潜時符号に基づいて原画像の新しいビューを合成する。
2次元生成モデルのGANインバージョンと比較して、NeRFインバージョンは、1)入力画像の同一性を維持するだけでなく、2)生成した新規なビューにおいて3D一貫性を確保する必要がある。
スタイルベースNeRFインバージョンのための2段階エンコーダを提案する。
- 参考スコア(独自算出の注目度): 50.118687869198716
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We tackle the task of NeRF inversion for style-based neural radiance fields,
(e.g., StyleNeRF). In the task, we aim to learn an inversion function to
project an input image to the latent space of a NeRF generator and then
synthesize novel views of the original image based on the latent code. Compared
with GAN inversion for 2D generative models, NeRF inversion not only needs to
1) preserve the identity of the input image, but also 2) ensure 3D consistency
in generated novel views. This requires the latent code obtained from the
single-view image to be invariant across multiple views. To address this new
challenge, we propose a two-stage encoder for style-based NeRF inversion. In
the first stage, we introduce a base encoder that converts the input image to a
latent code. To ensure the latent code is view-invariant and is able to
synthesize 3D consistent novel view images, we utilize identity contrastive
learning to train the base encoder. Second, to better preserve the identity of
the input image, we introduce a refining encoder to refine the latent code and
add finer details to the output image. Importantly note that the novelty of
this model lies in the design of its first-stage encoder which produces the
closest latent code lying on the latent manifold and thus the refinement in the
second stage would be close to the NeRF manifold. Through extensive
experiments, we demonstrate that our proposed two-stage encoder qualitatively
and quantitatively exhibits superiority over the existing encoders for
inversion in both image reconstruction and novel-view rendering.
- Abstract(参考訳): スタイルベースニューラル放射場(StyleNeRFなど)におけるNeRF逆変換の課題に取り組む。
そこで本研究では,nnf生成器の潜在空間に入力画像を投影するインバージョン関数を学習し,その潜在コードに基づいて元の画像の新しいビューを合成する。
2次元生成モデルにおけるGANインバージョンと比較すると、NeRFインバージョンは単に必要ではない。
1)入力画像の同一性を保持するだけでなく、
2) 生成した新規ビューにおける3次元一貫性を確保する。
これは、単一のビューイメージから得られた潜在コードは、複数のビューで不変である必要がある。
この課題に対処するために,スタイルベースNeRFインバージョンのための2段階エンコーダを提案する。
第1段階では,入力画像を潜在コードに変換するベースエンコーダを導入する。
潜在コードがビュー不変であり、3次元一貫した新しいビュー画像の合成を可能にするため、ベースエンコーダのトレーニングにアイデンティティコントラスト学習を利用する。
第2に、入力画像の同一性を保つため、潜在コードを洗練し、出力画像により詳細な情報を追加するための精細エンコーダを導入する。
重要なのは、このモデルの新規性は、潜在多様体上に横たわっている最も近い潜在コードを生成する1段エンコーダの設計にあるため、2段目の改良は、nerf多様体に近い。
提案する2段エンコーダは,画像再構成とノベルビューレンダリングの両方において,既存のエンコーダよりも質的かつ定量的に優れていることを実証する。
関連論文リスト
- LVSM: A Large View Synthesis Model with Minimal 3D Inductive Bias [50.13457154615262]
スパースビュー入力からのスケーラブルで一般化可能な新規ビュー合成のためのトランスフォーマーに基づくアプローチを提案する。
本稿では,(1)入力画像トークンを1次元遅延トークンにエンコードするエンコーダデコーダLVSM,(2)入力画像を直接新規ビュー出力にマッピングするデコーダのみLVSMの2つのアーキテクチャを紹介する。
論文 参考訳(メタデータ) (2024-10-22T17:58:28Z) - Dual Encoder GAN Inversion for High-Fidelity 3D Head Reconstruction from Single Images [8.558093666229553]
3D GANインバージョンは、単一の画像をGAN(Generative Adversarial Network)の潜在空間に投影することを目的としている。
3D GANインバージョンには良い結果をもたらすエンコーダがあるが、主にEG3D上に構築されている。
画像の360度合成に優れたパノヘッドを基盤とした新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T17:30:23Z) - Triple-View Knowledge Distillation for Semi-Supervised Semantic
Segmentation [54.23510028456082]
半教師付きセマンティックセグメンテーションのためのトリプルビュー知識蒸留フレームワークTriKDを提案する。
このフレームワークは、トリプルビューエンコーダとデュアル周波数デコーダを含む。
論文 参考訳(メタデータ) (2023-09-22T01:02:21Z) - Meta-Auxiliary Network for 3D GAN Inversion [18.777352198191004]
本稿では,新たに開発された3D GANをジェネレータとして利用しながら,新しいメタ補助フレームワークを提案する。
最初の段階では、オフザシェルフインバージョン技術を用いて、入力画像を編集可能な潜在コードに変換する。
補助的ネットワークは、与えられた画像を入力としてジェネレータパラメータを洗練し、畳み込み層の重み付けとボリュームレンダリングのサンプリング位置のオフセットを予測する。
第2段階では、入力された画像に補助ネットワークを高速に適応させるメタラーニングを行い、その後、メタラーニングされた補助ネットワークを介して最終再構成画像を合成する。
論文 参考訳(メタデータ) (2023-05-18T11:26:27Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - Sem2NeRF: Converting Single-View Semantic Masks to Neural Radiance
Fields [49.41982694533966]
本稿では,1つの単一ビューセマンティックマスクを入力として条件付けしたSemantic-to-NeRF変換を提案する。
特に、Sem2NeRFは、事前訓練されたデコーダの3Dシーン表現を制御する潜在コードにセマンティックマスクをエンコードすることで、非常に困難なタスクに対処する。
提案したSem2NeRFの有効性を検証し、2つのベンチマークデータセット上でいくつかの強いベースラインを上回ります。
論文 参考訳(メタデータ) (2022-03-21T09:15:58Z) - Pix2NeRF: Unsupervised Conditional $\pi$-GAN for Single Image to Neural
Radiance Fields Translation [93.77693306391059]
本研究では,物体のニューラルレージアンス場(NeRF)を生成するパイプラインを提案する。
本手法は,無条件3D画像合成のための生成モデルである$pi$-GANに基づいている。
論文 参考訳(メタデータ) (2022-02-26T15:28:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。