論文の概要: NeRF-VAE: A Geometry Aware 3D Scene Generative Model
- arxiv url: http://arxiv.org/abs/2104.00587v1
- Date: Thu, 1 Apr 2021 16:16:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 13:53:13.228369
- Title: NeRF-VAE: A Geometry Aware 3D Scene Generative Model
- Title(参考訳): NeRF-VAE:3次元シーン生成モデルを考慮した幾何学
- Authors: Adam R. Kosiorek, Heiko Strathmann, Daniel Zoran, Pol Moreno, Rosalia
Schneider, So\v{n}a Mokr\'a, Danilo J. Rezende
- Abstract要約: 本研究では,NeRFによる幾何学的構造を組み込んだ3次元シーン生成モデルNeRF-VAEを提案する。
NeRF-VAEの明示的な3Dレンダリングプロセスは、以前の生成モデルと畳み込みベースのレンダリングとを対比する。
トレーニングが完了すると、NeRF-VAEは以前に見つからなかった3D環境から幾何学的に一貫性のあるシーンを推測、描画できることを示す。
- 参考スコア(独自算出の注目度): 14.593550382914767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose NeRF-VAE, a 3D scene generative model that incorporates geometric
structure via NeRF and differentiable volume rendering. In contrast to NeRF,
our model takes into account shared structure across scenes, and is able to
infer the structure of a novel scene -- without the need to re-train -- using
amortized inference. NeRF-VAE's explicit 3D rendering process further contrasts
previous generative models with convolution-based rendering which lacks
geometric structure. Our model is a VAE that learns a distribution over
radiance fields by conditioning them on a latent scene representation. We show
that, once trained, NeRF-VAE is able to infer and render
geometrically-consistent scenes from previously unseen 3D environments using
very few input images. We further demonstrate that NeRF-VAE generalizes well to
out-of-distribution cameras, while convolutional models do not. Finally, we
introduce and study an attention-based conditioning mechanism of NeRF-VAE's
decoder, which improves model performance.
- Abstract(参考訳): 本研究では,NeRFによる幾何学的構造を組み込んだ3次元シーン生成モデルNeRF-VAEを提案する。
NeRFとは対照的に、私たちのモデルはシーン間の共有構造を考慮しており、償却推論を使用して、新しいシーンの構造を -- 再トレーニングすることなく -- 推測することができる。
NeRF-VAEの明示的な3Dレンダリングプロセスは、幾何学的構造に欠ける畳み込みベースのレンダリングと、以前の生成モデルとはさらに対照的である。
我々のモデルは、レイディアンスフィールド上の分布を潜在シーン表現に条件付けすることで学習するVAEである。
一度訓練すると、NeRF-VAEは、非常に少ない入力画像を用いて、これまで見えない3D環境から幾何学的に一貫性のあるシーンを推測、描画できることを示す。
さらに、NeRF-VAEは、畳み込みモデルではあり得ないが、分布外カメラによく当てはまることを実証する。
最後に,NeRF-VAEデコーダのアテンションに基づくコンディショニング機構を導入し,モデル性能を向上させる。
関連論文リスト
- DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - ReconFusion: 3D Reconstruction with Diffusion Priors [104.73604630145847]
本稿では,数枚の写真を用いて現実のシーンを再構成するReconFusionを提案する。
提案手法は,合成および多視点データセットに基づいて訓練された新規なビュー合成に先立って拡散を利用する。
本手法は,観測領域の外観を保ちながら,非拘束領域における現実的な幾何学とテクスチャを合成する。
論文 参考訳(メタデータ) (2023-12-05T18:59:58Z) - Single-Stage Diffusion NeRF: A Unified Approach to 3D Generation and
Reconstruction [77.69363640021503]
3D対応画像合成は、シーン生成や画像からの新規ビュー合成など、様々なタスクを含む。
本稿では,様々な物体の多視点画像から,ニューラルラディアンス場(NeRF)の一般化可能な事前学習を行うために,表現拡散モデルを用いた統一的アプローチであるSSDNeRFを提案する。
論文 参考訳(メタデータ) (2023-04-13T17:59:01Z) - NeRF-GAN Distillation for Efficient 3D-Aware Generation with
Convolutions [97.27105725738016]
GAN(Generative Adversarial Networks)のようなニューラルラジアンスフィールド(NeRF)と生成モデルの統合は、単一ビュー画像から3D認識生成を変換した。
提案手法は,ポーズ条件付き畳み込みネットワークにおいて,事前学習したNeRF-GANの有界遅延空間を再利用し,基礎となる3次元表現に対応する3D一貫性画像を直接生成する手法である。
論文 参考訳(メタデータ) (2023-03-22T18:59:48Z) - DehazeNeRF: Multiple Image Haze Removal and 3D Shape Reconstruction
using Neural Radiance Fields [56.30120727729177]
DehazeNeRFは,湿潤な環境下で頑健に動作するフレームワークとして紹介する。
提案手法は,複数視点のヘイズ除去,新しいビュー合成,既存手法が失敗する3次元形状再構成を成功させるものである。
論文 参考訳(メタデータ) (2023-03-20T18:03:32Z) - NerfDiff: Single-image View Synthesis with NeRF-guided Distillation from
3D-aware Diffusion [107.67277084886929]
単一の画像からの新しいビュー合成には、オブジェクトやシーンの隠蔽領域を推論すると同時に、入力とのセマンティックおよび物理的整合性を同時に維持する必要がある。
そこで我々は,NerfDiffを提案する。NerfDiffは3D対応条件拡散モデル(CDM)の知識を,テスト時に仮想ビューの集合を合成・精製することで,NeRFに抽出することでこの問題に対処する。
さらに,CDMサンプルから3次元一貫した仮想ビューを同時に生成し,改良された仮想ビューに基づいてNeRFを微調整する新しいNeRF誘導蒸留アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-20T17:12:00Z) - NeRDi: Single-View NeRF Synthesis with Language-Guided Diffusion as
General Image Priors [24.05480789681139]
本研究では,2次元拡散モデルから一般的な画像の事前処理が可能な単一視点NeRF合成フレームワークNeRDiを提案する。
市販の視覚言語モデルを活用し、拡散モデルに条件付け入力として2節言語ガイダンスを導入する。
In-the-wild画像に対するゼロショットNeRF合成における一般化可能性も示す。
論文 参考訳(メタデータ) (2022-12-06T19:00:07Z) - FDNeRF: Few-shot Dynamic Neural Radiance Fields for Face Reconstruction
and Expression Editing [27.014582934266492]
本研究では,3次元顔の再構成と表現編集が可能な最初のNeRF方式であるFew-shot Dynamic Neural Radiance Field (FDNeRF)を提案する。
入力として高密度画像を必要とする既存の動的NeRFと異なり、単一のアイデンティティのためにのみモデル化できるため、少ないショット入力を持つ異なる人物間での顔再構成が可能となる。
論文 参考訳(メタデータ) (2022-08-11T11:05:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。