論文の概要: UniLat3D: Geometry-Appearance Unified Latents for Single-Stage 3D Generation
- arxiv url: http://arxiv.org/abs/2509.25079v1
- Date: Mon, 29 Sep 2025 17:21:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.158854
- Title: UniLat3D: Geometry-Appearance Unified Latents for Single-Stage 3D Generation
- Title(参考訳): UniLat3D: 単段3D生成のための幾何学的外観統一型潜水機
- Authors: Guanjun Wu, Jiemin Fang, Chen Yang, Sikuang Li, Taoran Yi, Jia Lu, Zanwei Zhou, Jiazhong Cen, Lingxi Xie, Xiaopeng Zhang, Wei Wei, Wenyu Liu, Xinggang Wang, Qi Tian,
- Abstract要約: UniLat3Dは、単一の潜在空間における幾何学と外観を符号化する統一されたフレームワークである。
我々の重要な貢献は、高分解能スパース特徴をコンパクトな潜在表現に圧縮する幾何学的外観統一VAEである。
UniLat3Dは、1枚の画像から数秒で高品質な3Dアセットを生成する。
- 参考スコア(独自算出の注目度): 98.40254523605581
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-fidelity 3D asset generation is crucial for various industries. While recent 3D pretrained models show strong capability in producing realistic content, most are built upon diffusion models and follow a two-stage pipeline that first generates geometry and then synthesizes appearance. Such a decoupled design tends to produce geometry-texture misalignment and non-negligible cost. In this paper, we propose UniLat3D, a unified framework that encodes geometry and appearance in a single latent space, enabling direct single-stage generation. Our key contribution is a geometry-appearance Unified VAE, which compresses high-resolution sparse features into a compact latent representation -- UniLat. UniLat integrates structural and visual information into a dense low-resolution latent, which can be efficiently decoded into diverse 3D formats, e.g., 3D Gaussians and meshes. Based on this unified representation, we train a single flow-matching model to map Gaussian noise directly into UniLat, eliminating redundant stages. Trained solely on public datasets, UniLat3D produces high-quality 3D assets in seconds from a single image, achieving superior appearance fidelity and geometric quality. More demos \& code are available at https://unilat3d.github.io/
- Abstract(参考訳): 高忠実度3Dアセットジェネレーションは、様々な産業にとって不可欠である。
最近の3D事前訓練モデルでは、現実的なコンテンツを生成する能力が強いが、そのほとんどは拡散モデルに基づいて構築され、最初に幾何学を生成し、外観を合成する2段階のパイプラインに従う。
このような疎結合な設計は、幾何学的テクスチャのミスアライメントと非無視的なコストを生み出す傾向がある。
本論文では,1つの潜在空間における幾何学と外観を符号化し,直接的な単一ステージ生成を可能にする統一フレームワークUniLat3Dを提案する。
我々の重要な貢献は、高分解能スパース特徴をコンパクトな潜在表現であるUniLatに圧縮する幾何学的外観の統一VAEである。
UniLatは構造情報と視覚情報を高密度の低解像度潜水器に統合し、効率よく3Dフォーマット、例えば3Dガウスやメッシュにデコードできる。
この統一表現に基づいて、1つのフローマッチングモデルを訓練し、ガウスノイズを直接UniLatにマッピングし、冗長なステージを除去する。
UniLat3Dは、公開データセットのみに基づいて訓練され、単一の画像から数秒で高品質な3Dアセットを生成し、外観の忠実さと幾何学的品質を達成する。
さらなるデモがhttps://unilat3d.github.io/で公開されている。
関連論文リスト
- Structured 3D Latents for Scalable and Versatile 3D Generation [28.672494137267837]
汎用的で高品質な3Dアセット作成のための新しい3D生成手法を提案する。
基本となるのは、異なる出力フォーマットへのデコードを可能にする、構造化されたLATent表現である。
これは、疎人口の少ない3Dグリッドと、強力な視覚基盤モデルから抽出された濃密な多視点視覚特徴を統合することで実現される。
論文 参考訳(メタデータ) (2024-12-02T13:58:38Z) - GaussianAnything: Interactive Point Cloud Flow Matching For 3D Object Generation [75.39457097832113]
本稿では,インタラクティブなポイントクラウド構造ラテント空間を備えたスケーラブルで高品質な3D生成を実現する,新しい3D生成フレームワークを提案する。
本フレームワークでは,複数ビューのRGB-D(epth)-N(ormal)レンダリングを入力として使用する変分オートエンコーダを,3次元形状情報を保存する独自のラテント空間設計を用いて構成する。
提案手法であるGaussianAnythingは,複数モード条件付き3D生成をサポートし,ポイントクラウド,キャプション,単一画像入力を可能にする。
論文 参考訳(メタデータ) (2024-11-12T18:59:32Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - Unique3D: High-Quality and Efficient 3D Mesh Generation from a Single Image [28.759158325097093]
Unique3Dは、シングルビュー画像から高品質な3Dメッシュを効率的に生成するための、新しい画像間3Dフレームワークである。
我々のフレームワークは、最先端世代の忠実さと強力な一般化性を備えている。
論文 参考訳(メタデータ) (2024-05-30T17:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。