論文の概要: Bringing NeRFs to the Latent Space: Inverse Graphics Autoencoder
- arxiv url: http://arxiv.org/abs/2410.22936v1
- Date: Wed, 30 Oct 2024 11:43:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:27:33.455027
- Title: Bringing NeRFs to the Latent Space: Inverse Graphics Autoencoder
- Title(参考訳): NeRFを潜在空間に持ち込む - 逆グラフィックオートエンコーダ
- Authors: Antoine Schnepf, Karim Kassab, Jean-Yves Franceschi, Laurent Caraffa, Flavian Vasile, Jeremie Mary, Andrew Comport, Valerie Gouet-Brunet,
- Abstract要約: Inverse Graphics Autoencoder (IG-AE) を提案する。
画像オートエンコーダを3次元幾何で正規化するためには、その潜在空間と、共同で訓練された潜在3次元シーンを整列する。
IG-AEでトレーニングしたLatent NeRFは,標準のオートエンコーダに比べて品質が向上していることを確認した。
- 参考スコア(独自算出の注目度): 4.601396206207119
- License:
- Abstract: While pre-trained image autoencoders are increasingly utilized in computer vision, the application of inverse graphics in 2D latent spaces has been under-explored. Yet, besides reducing the training and rendering complexity, applying inverse graphics in the latent space enables a valuable interoperability with other latent-based 2D methods. The major challenge is that inverse graphics cannot be directly applied to such image latent spaces because they lack an underlying 3D geometry. In this paper, we propose an Inverse Graphics Autoencoder (IG-AE) that specifically addresses this issue. To this end, we regularize an image autoencoder with 3D-geometry by aligning its latent space with jointly trained latent 3D scenes. We utilize the trained IG-AE to bring NeRFs to the latent space with a latent NeRF training pipeline, which we implement in an open-source extension of the Nerfstudio framework, thereby unlocking latent scene learning for its supported methods. We experimentally confirm that Latent NeRFs trained with IG-AE present an improved quality compared to a standard autoencoder, all while exhibiting training and rendering accelerations with respect to NeRFs trained in the image space. Our project page can be found at https://ig-ae.github.io .
- Abstract(参考訳): コンピュータビジョンでは、事前訓練されたイメージオートエンコーダがますます活用されているが、2次元ラテント空間における逆グラフィックスの適用は過小評価されている。
しかし、トレーニングとレンダリングの複雑さの軽減に加えて、潜伏空間における逆グラフィックスの適用は、他の潜伏ベースの2Dメソッドとの貴重な相互運用性を実現する。
主な課題は、3次元幾何学が欠如しているため、逆グラフがそのような画像潜在空間に直接適用できないことである。
本稿では,この問題に対処する逆グラフオートエンコーダ(IG-AE)を提案する。
この目的のために,画像オートエンコーダを3次元幾何学で正規化し,その潜在空間と共同で訓練された潜在3Dシーンを整列する。
Nerfstudioフレームワークのオープンソース拡張で実装した潜在的NeRFトレーニングパイプラインにより、トレーニングされたIG-AEを使用して、潜時的なNeRFを潜時空間に持ち込む。
IG-AEでトレーニングしたLatent NeRFは,画像空間でトレーニングしたNeRFに対して,トレーニングやレンダリングの高速化を行いながら,標準のオートエンコーダに比べて品質が向上していることを確認した。
私たちのプロジェクトページはhttps://ig-ae.github.io.orgにある。
関連論文リスト
- NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields [57.617972778377215]
提案手法は,RGB画像から有効な3D表現を生成する方法を示す。
我々は、この表現を、提案した擬似RGBデータに基づいて、180万枚以上の画像で事前訓練する。
我々は,NeRFの自己教師型プレトレーニングであるNeRF-MAE(NeRF-MAE)を目覚ましいスケールで実施し,様々な3Dタスクの性能向上を実現した。
論文 参考訳(メタデータ) (2024-04-01T17:59:55Z) - Reconstructive Latent-Space Neural Radiance Fields for Efficient 3D
Scene Representations [34.836151514152746]
本研究では,自動エンコーダとNeRFを組み合わせることで,遅延特徴を描画し,畳み込み復号する手法を提案する。
結果として、潜在空間のNeRFは、標準色空間のNeRFよりも高品質で新しいビューを生成することができる。
AEアーキテクチャを小さくすることで効率と画質のトレードオフを制御でき、性能をわずかに低下させるだけで13倍以上高速なレンダリングを実現できます。
論文 参考訳(メタデータ) (2023-10-27T03:52:08Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Registering Neural Radiance Fields as 3D Density Images [55.64859832225061]
我々は,様々な場面でトレーニングやテストが可能な,普遍的な事前学習型ニューラルネットワークを提案する。
我々は,グローバルアプローチとして,NeRFモデルを効果的に登録できることを実証した。
論文 参考訳(メタデータ) (2023-05-22T09:08:46Z) - 3D-CLFusion: Fast Text-to-3D Rendering with Contrastive Latent Diffusion [55.71215821923401]
我々は、事前訓練された潜伏型NeRF(入力潜伏符号を与えられた3次元オブジェクトを生成するNeRF)によるテキストから3次元生成の課題に取り組む。
本稿では,3D-CLFusion という3D-CLFusion という手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T15:38:26Z) - Self-Supervised Geometry-Aware Encoder for Style-Based 3D GAN Inversion [115.82306502822412]
StyleGANは、画像インバージョンと潜時編集による2次元顔再構成とセマンティック編集において大きな進歩を遂げている。
対応する汎用的な3D GANインバージョンフレームワークがまだ欠けており、3D顔再構成とセマンティック編集の応用が制限されている。
本研究では,その3次元形状と詳細なテクスチャを忠実に復元するために,単一の顔画像から潜伏コードを予測する3D GAN逆変換の課題について検討する。
論文 参考訳(メタデータ) (2022-12-14T18:49:50Z) - Latent-NeRF for Shape-Guided Generation of 3D Shapes and Textures [72.44361273600207]
我々は, スコア蒸留を, 一般に利用可能な, 計算効率の良い遅延拡散モデルに適用する。
潜在拡散モデルは、事前訓練された自己エンコーダのコンパクト潜在空間に全拡散過程を適用する。
これらの結果から, 3次元メッシュに直接, 潜在スコア蒸留を適用できることが示唆された。
論文 参考訳(メタデータ) (2022-11-14T18:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。