論文の概要: Hyper3D: Efficient 3D Representation via Hybrid Triplane and Octree Feature for Enhanced 3D Shape Variational Auto-Encoders
- arxiv url: http://arxiv.org/abs/2503.10403v1
- Date: Thu, 13 Mar 2025 14:26:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:52:43.269310
- Title: Hyper3D: Efficient 3D Representation via Hybrid Triplane and Octree Feature for Enhanced 3D Shape Variational Auto-Encoders
- Title(参考訳): Hyper3D:ハイブリッドトライプレーンによる効率的な3次元表現と3次元形状可変オートエンコーダのオクター特性
- Authors: Jingyu Guo, Sensen Gao, Jia-Wang Bian, Wanhu Sun, Heliang Zheng, Rongfei Jia, Mingming Gong,
- Abstract要約: 3Dコンテンツ生成パイプラインは、しばしば変分オートエンコーダ(VAE)を利用して、形状をコンパクトな潜在表現にエンコードする。
我々は,ハイブリッド3次元平面とオクツリーを融合した効率的な3次元表現により,VAE再構成を向上するHyper3Dを紹介する。
実験の結果,Hyper3Dは3次元形状を高忠実度で細部まで再現することで従来の表現よりも優れていた。
- 参考スコア(独自算出の注目度): 43.61384205458698
- License:
- Abstract: Recent 3D content generation pipelines often leverage Variational Autoencoders (VAEs) to encode shapes into compact latent representations, facilitating diffusion-based generation. Efficiently compressing 3D shapes while preserving intricate geometric details remains a key challenge. Existing 3D shape VAEs often employ uniform point sampling and 1D/2D latent representations, such as vector sets or triplanes, leading to significant geometric detail loss due to inadequate surface coverage and the absence of explicit 3D representations in the latent space. Although recent work explores 3D latent representations, their large scale hinders high-resolution encoding and efficient training. Given these challenges, we introduce Hyper3D, which enhances VAE reconstruction through efficient 3D representation that integrates hybrid triplane and octree features. First, we adopt an octree-based feature representation to embed mesh information into the network, mitigating the limitations of uniform point sampling in capturing geometric distributions along the mesh surface. Furthermore, we propose a hybrid latent space representation that integrates a high-resolution triplane with a low-resolution 3D grid. This design not only compensates for the lack of explicit 3D representations but also leverages a triplane to preserve high-resolution details. Experimental results demonstrate that Hyper3D outperforms traditional representations by reconstructing 3D shapes with higher fidelity and finer details, making it well-suited for 3D generation pipelines.
- Abstract(参考訳): 最近の3Dコンテンツ生成パイプラインは、しばしば変分オートエンコーダ(VAE)を利用して、形状をコンパクトな潜在表現に符号化し、拡散ベースの生成を容易にする。
複雑な幾何学的詳細を保存しながら3D形状を効率よく圧縮することは、依然として重要な課題である。
既存の3D形状のVAEは、ベクトル集合や三面体のような一様点サンプリングと1D/2Dの潜伏表現を用いることが多く、不適切な表面積と潜伏空間における明示的な3D表現の欠如により、幾何的詳細が著しく失われる。
最近の研究は3次元潜在表現を探索しているが、その大規模化は高解像度符号化と効率的な訓練を妨げる。
これらの課題から,ハイブリッド3次元平面とオクツリーを融合した効率的な3次元表現によるVAE再構成を実現するHyper3Dを導入する。
まず、オクツリーに基づく特徴表現を用いてメッシュ情報をネットワークに埋め込み、メッシュ表面の幾何学的分布を捉える際の一様点サンプリングの制限を緩和する。
さらに,高分解能3次元格子と高分解能3次元格子を統合したハイブリッド潜時空間表現を提案する。
この設計は、明示的な3D表現の欠如を補うだけでなく、高解像度の細部を保存するために三面体も活用している。
実験の結果,Hyper3Dは3次元形状を高忠実度で細部まで再現することで従来の表現よりも優れており,3次元生成パイプラインに適していることがわかった。
関連論文リスト
- LineGS : 3D Line Segment Representation on 3D Gaussian Splatting [0.0]
LineGSは幾何学誘導型3次元ライン再構成と3次元ガウススプラッティングモデルを組み合わせた新しい手法である。
その結果, ベースライン法と比較して, 幾何精度とモデルコンパクト性に有意な改善が認められた。
論文 参考訳(メタデータ) (2024-11-30T13:29:36Z) - GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation [75.39457097832113]
本稿では,インタラクティブなポイントクラウド構造ラテント空間を備えたスケーラブルで高品質な3D生成を実現する,新しい3D生成フレームワークを提案する。
本フレームワークでは,複数ビューのRGB-D(epth)-N(ormal)レンダリングを入力として使用する変分オートエンコーダを,3次元形状情報を保存する独自のラテント空間設計を用いて構成する。
提案手法であるGaussianAnythingは,複数モード条件付き3D生成をサポートし,ポイントクラウド,キャプション,シングル/マルチビュー画像入力を可能にする。
論文 参考訳(メタデータ) (2024-11-12T18:59:32Z) - Deep Geometric Moments Promote Shape Consistency in Text-to-3D Generation [27.43973967994717]
MT3Dは高忠実度3Dオブジェクトを利用して視点バイアスを克服するテキスト・ツー・3D生成モデルである。
3Dアセットから幾何学的詳細を取り入れることで、MT3Dは多様で幾何学的に一貫したオブジェクトを作成することができる。
論文 参考訳(メタデータ) (2024-08-12T06:25:44Z) - Direct3D: Scalable Image-to-3D Generation via 3D Latent Diffusion Transformer [26.375689838055774]
Direct3Dは、Wildの入力画像にスケーラブルなネイティブな3D生成モデルである。
提案手法は, 直接3次元変分オートエンコーダ(D3D-VAE)と直接3次元拡散変換器(D3D-DiT)の2成分からなる。
論文 参考訳(メタデータ) (2024-05-23T17:49:37Z) - DiffTF++: 3D-aware Diffusion Transformer for Large-Vocabulary 3D Generation [53.20147419879056]
拡散型フィードフォワードフレームワークを導入し,単一モデルで課題に対処する。
TransFormerを用いた3D対応拡散モデルを構築し,より強力な3D生成,すなわちDiffTF++を提案する。
ShapeNetとOmniObject3Dの実験は、提案したモジュールの有効性を確実に実証している。
論文 参考訳(メタデータ) (2024-05-13T17:59:51Z) - NeuSDFusion: A Spatial-Aware Generative Model for 3D Shape Completion, Reconstruction, and Generation [52.772319840580074]
3D形状生成は、特定の条件や制約に固執する革新的な3Dコンテンツを作成することを目的としている。
既存の方法は、しばしば3Dの形状を局所化されたコンポーネントの列に分解し、各要素を分離して扱う。
本研究では2次元平面表現を利用した空間認識型3次元形状生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-27T04:09:34Z) - LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。
提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。
3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-18T17:54:34Z) - Deep Marching Tetrahedra: a Hybrid Representation for High-Resolution 3D
Shape Synthesis [90.26556260531707]
DMTetは粗いボクセルのような単純なユーザーガイドを用いて高解像度の3次元形状を合成できる条件付き生成モデルである。
メッシュなどの明示的な表現を直接生成する深部3次元生成モデルとは異なり、我々のモデルは任意の位相で形状を合成することができる。
論文 参考訳(メタデータ) (2021-11-08T05:29:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。