論文の概要: Generative Lifting of Multiview to 3D from Unknown Pose: Wrapping NeRF inside Diffusion
- arxiv url: http://arxiv.org/abs/2406.06972v1
- Date: Tue, 11 Jun 2024 06:09:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 17:25:19.087494
- Title: Generative Lifting of Multiview to 3D from Unknown Pose: Wrapping NeRF inside Diffusion
- Title(参考訳): 未知の空間から3次元へのマルチビュー生成:拡散中を回転するNeRF
- Authors: Xin Yuan, Rana Hanocka, Michael Maire,
- Abstract要約: 生成モデル問題として未知のポーズから多視点再構成を行った。
シーンの無注釈2次元画像の集合から,2次元画像入力からカメラポーズを予測するネットワークと,3次元シーンに対するニューラルレージアンス場(NeRF)のパラメータの両方を同時に学習する。
我々のフレームワークは,入力された2D画像をそのポーズを予測し,そのポーズからNeRFをレンダリングすることで,そのタスクを達成する必要がある。
- 参考スコア(独自算出の注目度): 28.86592251775231
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We cast multiview reconstruction from unknown pose as a generative modeling problem. From a collection of unannotated 2D images of a scene, our approach simultaneously learns both a network to predict camera pose from 2D image input, as well as the parameters of a Neural Radiance Field (NeRF) for the 3D scene. To drive learning, we wrap both the pose prediction network and NeRF inside a Denoising Diffusion Probabilistic Model (DDPM) and train the system via the standard denoising objective. Our framework requires the system accomplish the task of denoising an input 2D image by predicting its pose and rendering the NeRF from that pose. Learning to denoise thus forces the system to concurrently learn the underlying 3D NeRF representation and a mapping from images to camera extrinsic parameters. To facilitate the latter, we design a custom network architecture to represent pose as a distribution, granting implicit capacity for discovering view correspondences when trained end-to-end for denoising alone. This technique allows our system to successfully build NeRFs, without pose knowledge, for challenging scenes where competing methods fail. At the conclusion of training, our learned NeRF can be extracted and used as a 3D scene model; our full system can be used to sample novel camera poses and generate novel-view images.
- Abstract(参考訳): 生成モデル問題として未知のポーズから多視点再構成を行った。
シーンの無注釈2次元画像の集合から,2次元画像入力からカメラポーズを予測するネットワークと,3次元シーンに対するニューラルレージアンス場(NeRF)のパラメータの両方を同時に学習する。
学習を促進するために, 姿勢予測ネットワークとNeRFの両方をDDPM(Denoising Diffusion Probabilistic Model)内にラップし, 標準的な認知目標を用いてシステムを訓練する。
本フレームワークでは,そのポーズを予測し,そのポーズからNeRFを描画することにより,入力された2D画像をデノナイズするタスクをシステムに実行する必要がある。
これにより,3次元NeRF表現と画像からカメラ外部パラメータへのマッピングを同時に学習せざるを得なくなる。
後者を容易にするために、我々は、ポーズを分布として表現するカスタムネットワークアーキテクチャを設計し、訓練されたエンドツーエンドで単独で聴覚を訓練した場合に、ビュー対応を見つけるための暗黙の能力を与える。
この手法により,競合する手法が失敗する場面に対して,知識を伴わずにNeRFを構築できる。
トレーニングの終了時に学習したNeRFを3次元シーンモデルとして抽出し,使用することができる。
関連論文リスト
- DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - Likelihood-Based Generative Radiance Field with Latent Space
Energy-Based Model for 3D-Aware Disentangled Image Representation [43.41596483002523]
本稿では,Neural Radiance Fields (NeRF) による3次元表現と,可変ボリュームレンダリングによる2次元画像処理を併用した3次元画像生成モデルを提案する。
いくつかのベンチマークデータセットの実験では、NeRF-LEBMは2D画像から3Dオブジェクト構造を推測し、新しいビューとオブジェクトで2D画像を生成し、不完全な2D画像から学び、未知のカメラポーズで2D画像から学ぶことができる。
論文 参考訳(メタデータ) (2023-04-16T23:44:41Z) - NerfDiff: Single-image View Synthesis with NeRF-guided Distillation from
3D-aware Diffusion [107.67277084886929]
単一の画像からの新しいビュー合成には、オブジェクトやシーンの隠蔽領域を推論すると同時に、入力とのセマンティックおよび物理的整合性を同時に維持する必要がある。
そこで我々は,NerfDiffを提案する。NerfDiffは3D対応条件拡散モデル(CDM)の知識を,テスト時に仮想ビューの集合を合成・精製することで,NeRFに抽出することでこの問題に対処する。
さらに,CDMサンプルから3次元一貫した仮想ビューを同時に生成し,改良された仮想ビューに基づいてNeRFを微調整する新しいNeRF誘導蒸留アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-20T17:12:00Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - ViewFormer: NeRF-free Neural Rendering from Few Images Using
Transformers [34.4824364161812]
新たなビュー合成は、シーンやオブジェクトをスパースにカバーする少数のコンテキストビューしか与えられない、という問題です。
ゴールはシーンにおける新しい視点を予測することであり、これは学習の事前を必要とする。
ニューラルネットワークの単一パスにおいて,複数のコンテキストビューとクエリのポーズを新しい画像にマッピングする2Dのみの手法を提案する。
論文 参考訳(メタデータ) (2022-03-18T21:08:23Z) - BARF: Bundle-Adjusting Neural Radiance Fields [104.97810696435766]
不完全なカメラポーズからNeRFを訓練するためのバンドル調整ニューラルラジアンスフィールド(BARF)を提案します。
BARFは、ニューラルネットワークシーンの表現を効果的に最適化し、大きなカメラのポーズミスを同時に解決する。
これにより、未知のカメラポーズからの映像シーケンスのビュー合成とローカライズが可能になり、視覚ローカライズシステムのための新しい道を開くことができる。
論文 参考訳(メタデータ) (2021-04-13T17:59:51Z) - Putting NeRF on a Diet: Semantically Consistent Few-Shot View Synthesis [86.38901313994734]
数枚の画像から推定した3次元ニューラルシーン表現であるDietNeRFを提案する。
NeRFはマルチビュー一貫性によってシーンの連続的なボリューム表現を学習する。
我々は,新しいポーズにおけるリアルなレンダリングを促進する補助的なセマンティック一貫性損失を導入する。
論文 参考訳(メタデータ) (2021-04-01T17:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。