論文の概要: Ultra3D: Efficient and High-Fidelity 3D Generation with Part Attention
- arxiv url: http://arxiv.org/abs/2507.17745v3
- Date: Thu, 31 Jul 2025 15:39:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 13:02:07.659748
- Title: Ultra3D: Efficient and High-Fidelity 3D Generation with Part Attention
- Title(参考訳): Ultra3D: 部品を留意した効率よく高忠実な3D生成
- Authors: Yiwen Chen, Zhihao Li, Yikai Wang, Hu Zhang, Qin Li, Chi Zhang, Guosheng Lin,
- Abstract要約: 品質を損なうことなくスパースボクセルモデリングを大幅に高速化する,効率的な3D生成フレームワークであるUltra3Dを提案する。
部分注意(Part Attention)は、意味的に一貫した部分領域内での注意計算を制限する幾何学的な局所的注意機構である。
実験により、Ultra3Dは1024の解像度で高解像度の3D生成をサポートし、視覚的忠実度とユーザの好みの両方で最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 54.15345846343084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in sparse voxel representations have significantly improved the quality of 3D content generation, enabling high-resolution modeling with fine-grained geometry. However, existing frameworks suffer from severe computational inefficiencies due to the quadratic complexity of attention mechanisms in their two-stage diffusion pipelines. In this work, we propose Ultra3D, an efficient 3D generation framework that significantly accelerates sparse voxel modeling without compromising quality. Our method leverages the compact VecSet representation to efficiently generate a coarse object layout in the first stage, reducing token count and accelerating voxel coordinate prediction. To refine per-voxel latent features in the second stage, we introduce Part Attention, a geometry-aware localized attention mechanism that restricts attention computation within semantically consistent part regions. This design preserves structural continuity while avoiding unnecessary global attention, achieving up to 6.7x speed-up in latent generation. To support this mechanism, we construct a scalable part annotation pipeline that converts raw meshes into part-labeled sparse voxels. Extensive experiments demonstrate that Ultra3D supports high-resolution 3D generation at 1024 resolution and achieves state-of-the-art performance in both visual fidelity and user preference.
- Abstract(参考訳): スパースボクセル表現の最近の進歩は、3次元コンテンツ生成の質を大幅に向上させ、微細な形状の高分解能モデリングを可能にした。
しかし,既存のフレームワークは,2段階拡散パイプラインにおける注意機構の2次複雑化により,計算不効率に悩まされている。
本研究では, 品質を損なうことなく, スパースボクセルモデリングを著しく高速化する, 効率的な3D生成フレームワークであるUltra3Dを提案する。
提案手法は,コンパクトなVecSet表現を利用して,第1段階で粗いオブジェクトレイアウトを効率的に生成し,トークン数を削減し,ボクセル座標予測を高速化する。
第2段階において語彙ごとの潜伏特性を洗練させるために,意味的に一貫した部分領域における注意計算を制限する幾何学的局所化注意機構であるPart Attentionを導入する。
この設計は、不必要なグローバルな注意を回避しつつ構造的連続性を保ち、潜在世代で最大6.7倍のスピードアップを達成する。
このメカニズムをサポートするために,生メッシュを部分ラベル付きスパースボクセルに変換するスケーラブルな部分アノテーションパイプラインを構築した。
広汎な実験により、Ultra3Dは1024の解像度で高解像度の3D生成をサポートし、視覚的忠実度とユーザの好みの両方で最先端のパフォーマンスを実現する。
関連論文リスト
- Sparc3D: Sparse Representation and Construction for High-Resolution 3D Shapes Modeling [34.238349310770886]
Sarc3Dはスパース変形可能なマーチングキューブ表現と新しいエンコーダSparconv-VAEを組み合わせた統一フレームワークである。
Sparc3Dは、オープンサーフェス、切断されたコンポーネント、複雑な幾何学を含む挑戦的な入力に対して、最先端の再構築忠実性を達成する。
論文 参考訳(メタデータ) (2025-05-20T15:44:54Z) - SparseFlex: High-Resolution and Arbitrary-Topology 3D Shape Modeling [79.56581753856452]
SparseFlexは、新しいスパース構造のアイソサーフェス表現で、レンダリング損失から最大10243ドルの解像度で、差別化可能なメッシュ再構築を可能にする。
SparseFlexは、高解像度で差別化可能なメッシュ再構成とレンダリングロスによる生成を可能にすることで、3D形状の表現とモデリングの最先端性を著しく向上させる。
論文 参考訳(メタデータ) (2025-03-27T17:46:42Z) - SOGS: Second-Order Anchor for Advanced 3D Gaussian Splatting [116.22623164585114]
SOGSはアンカーベースの3D-GS技術であり、2階アンカーを導入し、優れたレンダリング品質とアンカー機能とモデルサイズを同時に削減する。
モデルサイズを小さくした新規なビュー合成において,SOGSが優れたレンダリング品質を実現することを示す。
論文 参考訳(メタデータ) (2025-03-10T15:50:46Z) - Beyond Gaussians: Fast and High-Fidelity 3D Splatting with Linear Kernels [51.08794269211701]
本稿では,ガウスカーネルを線形カーネルに置き換えて,よりシャープで高精度な結果を得る3Dリニアスティング(DLS)を提案する。
3DLSは、最先端の忠実さと正確さを示し、ベースライン3DGSよりも30%のFPS改善を実現している。
論文 参考訳(メタデータ) (2024-11-19T11:59:54Z) - L3DG: Latent 3D Gaussian Diffusion [74.36431175937285]
L3DGは3次元ガウス拡散定式化による3次元ガウスの3次元モデリングのための最初のアプローチである。
我々は、部屋の大きさのシーンで効率的に操作するために、スパース畳み込みアーキテクチャーを用いている。
3Dガウス表現を利用することで、生成されたシーンを任意の視点からリアルタイムでレンダリングすることができる。
論文 参考訳(メタデータ) (2024-10-17T13:19:32Z) - Efficient 3D Shape Generation via Diffusion Mamba with Bidirectional SSMs [16.05598829701769]
3次元点雲生成に適した新しい拡散アーキテクチャーDiffusion Mamba (DiM-3D)を提案する。
DiM-3Dは従来の注意機構を捨て、代わりにMambaアーキテクチャの本質的な効率を利用して、シーケンス長に関する線形複雑性を維持する。
ShapeNetベンチマークによる実験結果から、DEM-3Dは高忠実で多様な3D形状を生成する上で、最先端の性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-06-07T16:02:07Z) - TriPlaneNet: An Encoder for EG3D Inversion [1.9567015559455132]
NeRFをベースとしたGANは、人間の頭部の高分解能かつ高忠実な生成モデリングのための多くのアプローチを導入している。
2D GANインバージョンのための普遍的最適化に基づく手法の成功にもかかわらず、3D GANに適用された手法は、結果を新しい視点に外挿することができないかもしれない。
本稿では,EG3D生成モデルに提示された3面表現を直接利用することにより,両者のギャップを埋める高速な手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T17:56:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。