論文の概要: Compress3D: a Compressed Latent Space for 3D Generation from a Single Image
- arxiv url: http://arxiv.org/abs/2403.13524v1
- Date: Wed, 20 Mar 2024 11:51:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 16:57:51.285092
- Title: Compress3D: a Compressed Latent Space for 3D Generation from a Single Image
- Title(参考訳): Compress3D:1枚の画像から3D画像を生成する圧縮潜在空間
- Authors: Bowen Zhang, Tianyu Yang, Yu Li, Lei Zhang, Xi Zhao,
- Abstract要約: トリプレーンオートエンコーダは3次元モデルをコンパクトな3次元ラテント空間に符号化し、3次元幾何情報とテクスチャ情報の両方を圧縮する。
本稿では,低解像度の潜在表現を用いて高解像度の3D特徴量から特徴を問合せする3D対応のクロスアテンション機構を提案する。
われわれのアプローチでは、1つのA100 GPU上で7秒で高品質な3Dアセットを生成できる。
- 参考スコア(独自算出の注目度): 27.53099431097921
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D generation has witnessed significant advancements, yet efficiently producing high-quality 3D assets from a single image remains challenging. In this paper, we present a triplane autoencoder, which encodes 3D models into a compact triplane latent space to effectively compress both the 3D geometry and texture information. Within the autoencoder framework, we introduce a 3D-aware cross-attention mechanism, which utilizes low-resolution latent representations to query features from a high-resolution 3D feature volume, thereby enhancing the representation capacity of the latent space. Subsequently, we train a diffusion model on this refined latent space. In contrast to solely relying on image embedding for 3D generation, our proposed method advocates for the simultaneous utilization of both image embedding and shape embedding as conditions. Specifically, the shape embedding is estimated via a diffusion prior model conditioned on the image embedding. Through comprehensive experiments, we demonstrate that our method outperforms state-of-the-art algorithms, achieving superior performance while requiring less training data and time. Our approach enables the generation of high-quality 3D assets in merely 7 seconds on a single A100 GPU.
- Abstract(参考訳): 3D世代は大きな進歩を見せているが、1枚の画像から高品質な3Dアセットを効率よく生産するのは難しい。
本稿では,3次元モデルとテクスチャ情報の両方を効果的に圧縮するために,3次元モデルをコンパクトな3次元ラテント空間に符号化する3次元オートエンコーダを提案する。
オートエンコーダフレームワーク内では,低解像度の潜在表現を用いて高解像度の3次元特徴量から特徴量を問合せし,潜在空間の表現能力を向上する3D対応のクロスアテンション機構を導入する。
その後、この洗練された潜在空間上で拡散モデルを訓練する。
画像埋め込みのみを3次元生成に頼っているのとは対照的に,本提案手法は画像埋め込みと形状埋め込みを同時利用することを条件として提唱している。
具体的には、画像埋め込みに条件付き拡散先行モデルを用いて形状埋め込みを推定する。
包括的実験により,本手法は最先端のアルゴリズムより優れ,訓練データや時間が少なくて優れた性能が得られることを示した。
われわれのアプローチでは、1つのA100 GPU上で7秒で高品質な3Dアセットを生成できる。
関連論文リスト
- ScalingGaussian: Enhancing 3D Content Creation with Generative Gaussian Splatting [30.99112626706754]
高品質な3Dアセットの作成は、デジタル遺産、エンターテイメント、ロボット工学の応用において最重要である。
伝統的に、このプロセスはモデリングに熟練した専門家と専門的なソフトウェアを必要とする。
本稿では,3Dテクスチャを効率的に生成する新しい3Dコンテンツ作成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-26T18:26:01Z) - Unique3D: High-Quality and Efficient 3D Mesh Generation from a Single Image [28.759158325097093]
Unique3Dは、シングルビュー画像から高品質な3Dメッシュを効率的に生成するための、新しい画像間3Dフレームワークである。
我々のフレームワークは、最先端世代の忠実さと強力な一般化性を備えている。
論文 参考訳(メタデータ) (2024-05-30T17:59:54Z) - LAM3D: Large Image-Point-Cloud Alignment Model for 3D Reconstruction from Single Image [64.94932577552458]
大規模再構成モデルは、単一または複数入力画像から自動3Dコンテンツ生成の領域において大きな進歩を遂げている。
彼らの成功にもかかわらず、これらのモデルはしばしば幾何学的不正確な3Dメッシュを生成し、画像データからのみ3D形状を推論する固有の課題から生まれた。
生成した3Dメッシュの忠実度を高めるために3Dポイントクラウドデータを利用する新しいフレームワークであるLarge Image and Point Cloud Alignment Model (LAM3D)を導入する。
論文 参考訳(メタデータ) (2024-05-24T15:09:12Z) - ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance [76.7746870349809]
複雑な構成で高品質な3Dアセットを生成する3D生成フレームワークであるComboVerseについて,複数のモデルを組み合わせることを学習して紹介する。
提案手法は,標準スコア蒸留法と比較して,物体の空間的アライメントを重視している。
論文 参考訳(メタデータ) (2024-03-19T03:39:43Z) - LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。
提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。
3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-18T17:54:34Z) - One-2-3-45++: Fast Single Image to 3D Objects with Consistent Multi-View
Generation and 3D Diffusion [32.29687304798145]
One-2-3-45++は、1つの画像を1分で詳細な3Dテクスチャメッシュに変換する革新的な方法である。
提案手法は,2次元拡散モデルに埋め込まれた広範囲な知識を,貴重な3次元データから活用することを目的としている。
論文 参考訳(メタデータ) (2023-11-14T03:40:25Z) - Wonder3D: Single Image to 3D using Cross-Domain Diffusion [105.16622018766236]
Wonder3Dは、単一視点画像から高忠実なテクスチャメッシュを効率的に生成する新しい手法である。
画像から3Dまでのタスクの品質,一貫性,効率性を総括的に改善するため,領域間拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-10-23T15:02:23Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - Efficient Geometry-aware 3D Generative Adversarial Networks [50.68436093869381]
既存の3D GANは計算集約的であるか、3D一貫性のない近似を行う。
本研究では、3D GANの計算効率と画質をこれらの近似に頼らずに改善する。
本稿では,高解像度のマルチビュー一貫性画像だけでなく,高品質な3次元形状をリアルタイムに合成する,表現型ハイブリッド・明示型ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-15T08:01:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。