論文の概要: XCube ($\mathcal{X}^3$): Large-Scale 3D Generative Modeling using Sparse
Voxel Hierarchies
- arxiv url: http://arxiv.org/abs/2312.03806v1
- Date: Wed, 6 Dec 2023 16:23:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 17:12:44.502579
- Title: XCube ($\mathcal{X}^3$): Large-Scale 3D Generative Modeling using Sparse
Voxel Hierarchies
- Title(参考訳): XCube ($\mathcal{X}^3$:スパースボクセル階層を用いた大規模3次元生成モデリング
- Authors: Xuanchi Ren, Jiahui Huang, Xiaohui Zeng, Ken Museth, Sanja Fidler,
Francis Williams
- Abstract要約: $mathcalX3$は、任意の属性を持つ高解像度の3Dボクセルグリッドのための新しい生成モデルである。
階層的なボクセル潜在拡散モデルを用いて、徐々に高分解能グリッドを生成する。
本研究では,ユーザガイドによる編集,単一スキャンからのシーン補完,テキスト・トゥ・3Dなど,さまざまな課題の解決に本モデルが有効であることを示す。
- 参考スコア(独自算出の注目度): 59.82669296948085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present $\mathcal{X}^3$ (pronounced XCube), a novel generative model for
high-resolution sparse 3D voxel grids with arbitrary attributes. Our model can
generate millions of voxels with a finest effective resolution of up to
$1024^3$ in a feed-forward fashion without time-consuming test-time
optimization. To achieve this, we employ a hierarchical voxel latent diffusion
model which generates progressively higher resolution grids in a coarse-to-fine
manner using a custom framework built on the highly efficient VDB data
structure. Apart from generating high-resolution objects, we demonstrate the
effectiveness of XCube on large outdoor scenes at scales of 100m$\times$100m
with a voxel size as small as 10cm. We observe clear qualitative and
quantitative improvements over past approaches. In addition to unconditional
generation, we show that our model can be used to solve a variety of tasks such
as user-guided editing, scene completion from a single scan, and text-to-3D.
More results and details can be found at
https://research.nvidia.com/labs/toronto-ai/xcube/.
- Abstract(参考訳): 任意の属性を持つ高分解能スパース3Dボクセルグリッドのための新しい生成モデルである $\mathcal{X}^3$ を提示する。
我々のモデルは、テスト時間最適化に時間がかからないフィードフォワード方式で、最高1024^3$の効率的な解像度で数百万のボクセルを生成することができる。
これを実現するために,高効率なvdbデータ構造上に構築したカスタムフレームワークを用いて,段階的に高分解能のグリッドを生成する階層型ボクセル潜在拡散モデルを採用する。
高分解能オブジェクトの生成とは別に,100m$\times$100mの大規模屋外シーンにおけるXCubeの有効性を10cmのボクセルサイズで実証した。
我々は過去のアプローチよりも明確な質的、定量的な改善を観察する。
非条件生成に加えて、ユーザガイド編集、単一スキャンからのシーン補完、テキスト・トゥ・3Dといった様々なタスクを解くために、我々のモデルが利用できることを示す。
詳細はhttps://research.nvidia.com/labs/toronto-ai/xcube/を参照。
関連論文リスト
- Wavelet Latent Diffusion (Wala): Billion-Parameter 3D Generative Model with Compact Wavelet Encodings [15.2983201224858]
大規模3次元生成モデルは計算資源を必要とするが、細部や複雑な地形を高解像度で捉えるには不足することが多い。
我々はウェーブレット遅延拡散(WaLa)と呼ばれる新しい手法を導入し、3次元形状をコンパクトな潜時符号化に符号化する。
具体的には、2563ドルの符号付き距離場を123倍の遅延格子に圧縮し、2427倍の圧縮比を達成した。
我々のモデルは条件付きと無条件の両方で、約10億のパラメータを含み、高品質な3D形状を2563$で生成することに成功した。
論文 参考訳(メタデータ) (2024-11-12T18:49:06Z) - SCube: Instant Large-Scale Scene Reconstruction using VoxSplats [55.383993296042526]
SCubeは画像の粗い集合から大規模3次元シーン(幾何学、外観、意味論)を再構成する新しい手法である。
提案手法は,高解像度のスパース・ボクセル・足場上に支持された3次元ガウスの組である,新しい表現VoxSplatを用いて再構成シーンを符号化する。
論文 参考訳(メタデータ) (2024-10-26T00:52:46Z) - LaGeM: A Large Geometry Model for 3D Representation Learning and Diffusion [46.76882780184126]
本稿では3次元モデルを圧縮された潜在空間にマッピングする新しい階層型オートエンコーダを提案する。
このモデルは,高分解能な幾何学的詳細を忠実に表現しながら,広範囲な3次元モデルを表現するために使用できることを示す。
論文 参考訳(メタデータ) (2024-10-02T07:42:20Z) - LT3SD: Latent Trees for 3D Scene Diffusion [71.91446143124648]
本稿では,大規模3次元シーン生成のための新しい潜時拡散モデルLT3SDを提案する。
大規模かつ高品質な非条件3Dシーン生成におけるLT3SDの有効性とメリットを実証する。
論文 参考訳(メタデータ) (2024-09-12T16:55:51Z) - Outdoor Scene Extrapolation with Hierarchical Generative Cellular Automata [70.9375320609781]
我々は,自律走行車(AV)で多量に捕獲された大規模LiDARスキャンから微細な3次元形状を生成することを目指している。
本稿では,空間的にスケーラブルな3次元生成モデルである階層型生成セルオートマトン (hGCA) を提案する。
論文 参考訳(メタデータ) (2024-06-12T14:56:56Z) - SuperGaussian: Repurposing Video Models for 3D Super Resolution [67.19266415499139]
本稿では,幾何学的および外観的詳細を付加することにより,粗い3次元モデルをアップサンプルする,単純でモジュラーで汎用的な手法を提案する。
既存の3次元超解像モデルを直接再利用できることを実証する。
論文 参考訳(メタデータ) (2024-06-02T03:44:50Z) - Make-A-Shape: a Ten-Million-scale 3D Shape Model [52.701745578415796]
本稿では,大規模な効率的なトレーニングを目的とした新しい3次元生成モデルであるMake-A-Shapeを紹介する。
まずウェーブレットツリー表現を革新し、サブバンド係数フィルタリングスキームを定式化して形状をコンパクトに符号化する。
我々は、粗いウェーブレット係数の生成を効果的に学習するために、我々のモデルを訓練するためのサブバンド適応型トレーニング戦略を導出する。
論文 参考訳(メタデータ) (2024-01-20T00:21:58Z) - VoxGRAF: Fast 3D-Aware Image Synthesis with Sparse Voxel Grids [42.74658047803192]
最先端の3D認識生成モデルは座標に基づくパラメータ化3Dラディアンス場に依存している。
既存のアプローチでは、しばしば解像度の低い特徴写像をレンダリングし、それをアップサンプリングネットワークで処理して最終的な画像を得る。
既存の手法とは対照的に,本手法では完全な3Dシーンを生成するために,単一の前方通過しか必要としない。
論文 参考訳(メタデータ) (2022-06-15T17:44:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。