論文の概要: Native and Compact Structured Latents for 3D Generation
- arxiv url: http://arxiv.org/abs/2512.14692v1
- Date: Tue, 16 Dec 2025 18:58:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.844326
- Title: Native and Compact Structured Latents for 3D Generation
- Title(参考訳): 3次元生成のためのネイティブ・コンパクト構造潜水剤
- Authors: Jianfeng Xiang, Xiaoxue Chen, Sicheng Xu, Ruicheng Wang, Zelong Lv, Yu Deng, Hongyuan Zhu, Yue Dong, Hao Zhao, Nicholas Jing Yuan, Jiaolong Yang,
- Abstract要約: 本稿では,この課題に対処するために,ネイティブ3次元データから構造化潜在表現を学習するためのアプローチを提案する。
コアにはO-ボクセルと呼ばれる新しいスパースボクセル構造があり、これは幾何学と外観の両方をエンコードするオムニボクセル表現である。
O-Voxelをベースとして,空間圧縮率が高く,遅延空間がコンパクトなスパース圧縮VAEを設計する。
- 参考スコア(独自算出の注目度): 44.84214149555589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in 3D generative modeling have significantly improved the generation realism, yet the field is still hampered by existing representations, which struggle to capture assets with complex topologies and detailed appearance. This paper present an approach for learning a structured latent representation from native 3D data to address this challenge. At its core is a new sparse voxel structure called O-Voxel, an omni-voxel representation that encodes both geometry and appearance. O-Voxel can robustly model arbitrary topology, including open, non-manifold, and fully-enclosed surfaces, while capturing comprehensive surface attributes beyond texture color, such as physically-based rendering parameters. Based on O-Voxel, we design a Sparse Compression VAE which provides a high spatial compression rate and a compact latent space. We train large-scale flow-matching models comprising 4B parameters for 3D generation using diverse public 3D asset datasets. Despite their scale, inference remains highly efficient. Meanwhile, the geometry and material quality of our generated assets far exceed those of existing models. We believe our approach offers a significant advancement in 3D generative modeling.
- Abstract(参考訳): 3次元生成モデリングの最近の進歩は世代リアリズムを著しく改善しているが、複雑なトポロジと詳細な外観を持つ資産の獲得に苦慮している既存の表現によって、この分野はいまだに妨げられている。
本稿では,この課題に対処するために,ネイティブ3次元データから構造化潜在表現を学習するためのアプローチを提案する。
コアにはO-ボクセルと呼ばれる新しいスパースボクセル構造があり、これは幾何学と外観の両方をエンコードするオムニボクセル表現である。
O-Voxelは、オープン、非マニフォールド、完全閉曲面を含む任意のトポロジーを堅牢にモデル化し、物理ベースのレンダリングパラメータのようなテクスチャカラーを超えた包括的な表面特性をキャプチャする。
O-Voxelをベースとして,空間圧縮率が高く,遅延空間がコンパクトなスパース圧縮VAEを設計する。
我々は,多種多様な公開3次元データセットを用いて,3次元生成のための4Bパラメータからなる大規模フローマッチングモデルを訓練する。
その規模にもかかわらず、推論は非常に効率的である。
一方、生成した資産の幾何学的および物質的品質は、既存のモデルよりもはるかに高い。
我々は,本手法が3次元生成モデリングの大幅な進歩をもたらすと信じている。
関連論文リスト
- LATTICE: Democratize High-Fidelity 3D Generation at Scale [27.310104395842075]
LATTICEは高忠実度3Dアセット生成のための新しいフレームワークである。
VoxSetは、3Dの資産を粗いボクセル格子に固定された潜在ベクトルのコンパクトな集合に圧縮する半構造化表現である。
提案手法のコアは単純だが,任意の解像度復号化,低コストトレーニング,フレキシブル推論スキームをサポートする。
論文 参考訳(メタデータ) (2025-11-24T03:22:19Z) - WorldGrow: Generating Infinite 3D World [75.81531067447203]
我々は、無限に拡張可能な3D世界、すなわちコヒーレントな幾何学と現実的な外観を持つ大規模で連続的な環境を生み出すという課題に取り組む。
本研究では,非有界な3次元シーン合成のための階層的フレームワークWorldGrowを提案する。
提案手法は,(1)高品質なシーンブロックを抽出し,シーン生成に適した3D構造化潜在表現を作成するデータキュレーションパイプライン,(2)コンテキスト認識シーン拡張を可能にする3Dブロックインペイント機構,(3)グローバルなレイアウトの妥当性と局所幾何学的/音声的忠実性の両立を保証する粗大かつ微細な生成戦略,の3つのコアコンポーネントを特徴とする。
論文 参考訳(メタデータ) (2025-10-24T17:39:52Z) - Structured 3D Latents for Scalable and Versatile 3D Generation [28.672494137267837]
汎用的で高品質な3Dアセット作成のための新しい3D生成手法を提案する。
基本となるのは、異なる出力フォーマットへのデコードを可能にする、構造化されたLATent表現である。
これは、疎人口の少ない3Dグリッドと、強力な視覚基盤モデルから抽出された濃密な多視点視覚特徴を統合することで実現される。
論文 参考訳(メタデータ) (2024-12-02T13:58:38Z) - GaussianAnything: Interactive Point Cloud Flow Matching For 3D Object Generation [75.39457097832113]
本稿では,インタラクティブなポイントクラウド構造ラテント空間を備えたスケーラブルで高品質な3D生成を実現する,新しい3D生成フレームワークを提案する。
本フレームワークでは,複数ビューのRGB-D(epth)-N(ormal)レンダリングを入力として使用する変分オートエンコーダを,3次元形状情報を保存する独自のラテント空間設計を用いて構成する。
提案手法であるGaussianAnythingは,複数モード条件付き3D生成をサポートし,ポイントクラウド,キャプション,単一画像入力を可能にする。
論文 参考訳(メタデータ) (2024-11-12T18:59:32Z) - Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文 参考訳(メタデータ) (2024-02-19T15:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。