論文の概要: Likelihood-Based Generative Radiance Field with Latent Space
Energy-Based Model for 3D-Aware Disentangled Image Representation
- arxiv url: http://arxiv.org/abs/2304.07918v1
- Date: Sun, 16 Apr 2023 23:44:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 16:41:15.839696
- Title: Likelihood-Based Generative Radiance Field with Latent Space
Energy-Based Model for 3D-Aware Disentangled Image Representation
- Title(参考訳): 潜在空間エネルギーモデルを用いた3d認識不連続画像表現のためのラピッドベース生成放射場
- Authors: Yaxuan Zhu, Jianwen Xie, Ping Li
- Abstract要約: 本稿では,Neural Radiance Fields (NeRF) による3次元表現と,可変ボリュームレンダリングによる2次元画像処理を併用した3次元画像生成モデルを提案する。
いくつかのベンチマークデータセットの実験では、NeRF-LEBMは2D画像から3Dオブジェクト構造を推測し、新しいビューとオブジェクトで2D画像を生成し、不完全な2D画像から学び、未知のカメラポーズで2D画像から学ぶことができる。
- 参考スコア(独自算出の注目度): 43.41596483002523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose the NeRF-LEBM, a likelihood-based top-down 3D-aware 2D image
generative model that incorporates 3D representation via Neural Radiance Fields
(NeRF) and 2D imaging process via differentiable volume rendering. The model
represents an image as a rendering process from 3D object to 2D image and is
conditioned on some latent variables that account for object characteristics
and are assumed to follow informative trainable energy-based prior models. We
propose two likelihood-based learning frameworks to train the NeRF-LEBM: (i)
maximum likelihood estimation with Markov chain Monte Carlo-based inference and
(ii) variational inference with the reparameterization trick. We study our
models in the scenarios with both known and unknown camera poses. Experiments
on several benchmark datasets demonstrate that the NeRF-LEBM can infer 3D
object structures from 2D images, generate 2D images with novel views and
objects, learn from incomplete 2D images, and learn from 2D images with known
or unknown camera poses.
- Abstract(参考訳): 我々は,NeRF(Neural Radiance Fields)による3次元表現と,可変ボリュームレンダリングによる2次元画像処理を組み込んだ,可能性に基づくトップダウン3次元画像生成モデルNeRF-LEBMを提案する。
このモデルは、3Dオブジェクトから2Dイメージへのレンダリングプロセスとしてイメージを表現し、オブジェクトの特性を考慮に入れた潜伏変数に条件付けされ、伝達可能なエネルギーベースの事前モデルに従うと仮定される。
我々は、NeRF-LEBMをトレーニングするための2つの可能性に基づく学習フレームワークを提案する。
(i)マルコフ連鎖モンテカルロに基づく推定と最大確率推定
(ii)再パラメータ化トリックによる変分推論。
我々は、既知のカメラポーズと未知のカメラポーズの両方を用いてシナリオでモデルを研究する。
いくつかのベンチマークデータセットの実験では、NeRF-LEBMは2D画像から3Dオブジェクト構造を推測し、新しいビューとオブジェクトで2D画像を生成し、不完全な2D画像から学び、未知のカメラポーズで2D画像から学ぶことができる。
関連論文リスト
- Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。
3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。
本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文 参考訳(メタデータ) (2024-10-12T10:14:11Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - Inpaint3D: 3D Scene Content Generation using 2D Inpainting Diffusion [18.67196713834323]
本稿では、2次元拡散モデルを学習された3次元シーン表現(例えば、NeRF)に蒸留することにより、マスク付き多視点画像を用いたシーンの3次元領域の塗装手法を提案する。
我々は,この2次元拡散モデルが,スコア蒸留サンプリングとNeRF再構成損失の組み合わせを用いてNeRFを最適化する3次元多視点再構成問題において,生成前のモデルとして機能することを示す。
提案手法は,任意の3次元マスキング領域を埋めるコンテンツを生成することができるため,3次元オブジェクト補完,3次元オブジェクト置換,3次元シーン補完も同時に行うことができる。
論文 参考訳(メタデータ) (2023-12-06T19:30:04Z) - HoloDiffusion: Training a 3D Diffusion Model using 2D Images [71.1144397510333]
我々は,2次元画像のみを監督のために配置した,エンドツーエンドでトレーニング可能な新しい拡散装置を導入する。
我々の拡散モデルはスケーラブルで、頑健に訓練されており、既存の3次元生成モデルへのアプローチに対して、サンプルの品質と忠実さの点で競争力があることを示す。
論文 参考訳(メタデータ) (2023-03-29T07:35:56Z) - GAN2X: Non-Lambertian Inverse Rendering of Image GANs [85.76426471872855]
GAN2Xは、教師なし画像のみをトレーニングに使用する、教師なし逆レンダリングの新しい手法である。
3次元形状を主眼とする従来のShape-from-GANアプローチとは異なり、GANが生成した擬似ペアデータを利用して、非ランベルト材料特性を復元する試みは初めてである。
実験により, GAN2Xは2次元画像を3次元形状, アルベド, 特異な特性に正確に分解し, 教師なしの単視3次元顔再構成の最先端性能を実現することができた。
論文 参考訳(メタデータ) (2022-06-18T16:58:49Z) - Disentangled3D: Learning a 3D Generative Model with Disentangled
Geometry and Appearance from Monocular Images [94.49117671450531]
最先端の3D生成モデルは、合成に神経的な3Dボリューム表現を使用するGANである。
本稿では,単分子観察だけで物体の絡み合ったモデルを学ぶことができる3D GANを設計する。
論文 参考訳(メタデータ) (2022-03-29T22:03:18Z) - DRaCoN -- Differentiable Rasterization Conditioned Neural Radiance
Fields for Articulated Avatars [92.37436369781692]
フルボディの体積アバターを学習するためのフレームワークであるDRaCoNを提案する。
2Dと3Dのニューラルレンダリング技術の利点を利用する。
挑戦的なZJU-MoCapとHuman3.6Mデータセットの実験は、DRaCoNが最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2022-03-29T17:59:15Z) - 3D object reconstruction and 6D-pose estimation from 2D shape for
robotic grasping of objects [2.330913682033217]
本研究では,2次元画像からの3次元オブジェクト再構成と6次元位置推定手法を提案する。
2次元画像から直接変換パラメータを計算することにより、登録プロセスに必要な自由パラメータの数を削減できる。
ロボット実験では、オブジェクトの把握が成功し、実際の環境でのユーザビリティが実証される。
論文 参考訳(メタデータ) (2022-03-02T11:58:35Z) - FiG-NeRF: Figure-Ground Neural Radiance Fields for 3D Object Category
Modelling [11.432178728985956]
我々はNeural Radiance Fields (NeRF) を用いて、入力画像のコレクションから高品質な3Dオブジェクトカテゴリモデルを学習する。
本手法は,測光とカジュアルキャプチャによる画像のみを用いて,高精度な3dオブジェクトカテゴリモデルを学習できることを示す。
論文 参考訳(メタデータ) (2021-04-17T01:38:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。