論文の概要: Ultra3D: Efficient and High-Fidelity 3D Generation with Part Attention
- arxiv url: http://arxiv.org/abs/2507.17745v3
- Date: Thu, 31 Jul 2025 15:39:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 13:02:07.659748
- Title: Ultra3D: Efficient and High-Fidelity 3D Generation with Part Attention
- Title(参考訳): Ultra3D: 部品を留意した効率よく高忠実な3D生成
- Authors: Yiwen Chen, Zhihao Li, Yikai Wang, Hu Zhang, Qin Li, Chi Zhang, Guosheng Lin,
- Abstract要約: 品質を損なうことなくスパースボクセルモデリングを大幅に高速化する,効率的な3D生成フレームワークであるUltra3Dを提案する。
部分注意(Part Attention)は、意味的に一貫した部分領域内での注意計算を制限する幾何学的な局所的注意機構である。
実験により、Ultra3Dは1024の解像度で高解像度の3D生成をサポートし、視覚的忠実度とユーザの好みの両方で最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 54.15345846343084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in sparse voxel representations have significantly improved the quality of 3D content generation, enabling high-resolution modeling with fine-grained geometry. However, existing frameworks suffer from severe computational inefficiencies due to the quadratic complexity of attention mechanisms in their two-stage diffusion pipelines. In this work, we propose Ultra3D, an efficient 3D generation framework that significantly accelerates sparse voxel modeling without compromising quality. Our method leverages the compact VecSet representation to efficiently generate a coarse object layout in the first stage, reducing token count and accelerating voxel coordinate prediction. To refine per-voxel latent features in the second stage, we introduce Part Attention, a geometry-aware localized attention mechanism that restricts attention computation within semantically consistent part regions. This design preserves structural continuity while avoiding unnecessary global attention, achieving up to 6.7x speed-up in latent generation. To support this mechanism, we construct a scalable part annotation pipeline that converts raw meshes into part-labeled sparse voxels. Extensive experiments demonstrate that Ultra3D supports high-resolution 3D generation at 1024 resolution and achieves state-of-the-art performance in both visual fidelity and user preference.
- Abstract(参考訳): スパースボクセル表現の最近の進歩は、3次元コンテンツ生成の質を大幅に向上させ、微細な形状の高分解能モデリングを可能にした。
しかし,既存のフレームワークは,2段階拡散パイプラインにおける注意機構の2次複雑化により,計算不効率に悩まされている。
本研究では, 品質を損なうことなく, スパースボクセルモデリングを著しく高速化する, 効率的な3D生成フレームワークであるUltra3Dを提案する。
提案手法は,コンパクトなVecSet表現を利用して,第1段階で粗いオブジェクトレイアウトを効率的に生成し,トークン数を削減し,ボクセル座標予測を高速化する。
第2段階において語彙ごとの潜伏特性を洗練させるために,意味的に一貫した部分領域における注意計算を制限する幾何学的局所化注意機構であるPart Attentionを導入する。
この設計は、不必要なグローバルな注意を回避しつつ構造的連続性を保ち、潜在世代で最大6.7倍のスピードアップを達成する。
このメカニズムをサポートするために,生メッシュを部分ラベル付きスパースボクセルに変換するスケーラブルな部分アノテーションパイプラインを構築した。
広汎な実験により、Ultra3Dは1024の解像度で高解像度の3D生成をサポートし、視覚的忠実度とユーザの好みの両方で最先端のパフォーマンスを実現する。
関連論文リスト
- SHaDe: Compact and Consistent Dynamic 3D Reconstruction via Tri-Plane Deformation and Latent Diffusion [0.0]
本稿では3つの重要な要素を統合した動的3次元シーン再構成のための新しいフレームワークを提案する。
明示的な三面変形場、球面調和(SH)注目の視野条件付き正準場、時間的に認識される潜在拡散。
提案手法は,時間とともに進化する3つの2次元特徴面を用いて4次元シーンを符号化し,効率的なコンパクト表現を実現する。
論文 参考訳(メタデータ) (2025-05-22T11:25:38Z) - Sparc3D: Sparse Representation and Construction for High-Resolution 3D Shapes Modeling [34.238349310770886]
Sarc3Dはスパース変形可能なマーチングキューブ表現と新しいエンコーダSparconv-VAEを組み合わせた統一フレームワークである。
Sparc3Dは、オープンサーフェス、切断されたコンポーネント、複雑な幾何学を含む挑戦的な入力に対して、最先端の再構築忠実性を達成する。
論文 参考訳(メタデータ) (2025-05-20T15:44:54Z) - SparseFlex: High-Resolution and Arbitrary-Topology 3D Shape Modeling [79.56581753856452]
SparseFlexは、新しいスパース構造のアイソサーフェス表現で、レンダリング損失から最大10243ドルの解像度で、差別化可能なメッシュ再構築を可能にする。
SparseFlexは、高解像度で差別化可能なメッシュ再構成とレンダリングロスによる生成を可能にすることで、3D形状の表現とモデリングの最先端性を著しく向上させる。
論文 参考訳(メタデータ) (2025-03-27T17:46:42Z) - SOGS: Second-Order Anchor for Advanced 3D Gaussian Splatting [116.22623164585114]
SOGSはアンカーベースの3D-GS技術であり、2階アンカーを導入し、優れたレンダリング品質とアンカー機能とモデルサイズを同時に削減する。
モデルサイズを小さくした新規なビュー合成において,SOGSが優れたレンダリング品質を実現することを示す。
論文 参考訳(メタデータ) (2025-03-10T15:50:46Z) - Beyond Gaussians: Fast and High-Fidelity 3D Splatting with Linear Kernels [51.08794269211701]
本稿では,ガウスカーネルを線形カーネルに置き換えて,よりシャープで高精度な結果を得る3Dリニアスティング(DLS)を提案する。
3DLSは、最先端の忠実さと正確さを示し、ベースライン3DGSよりも30%のFPS改善を実現している。
論文 参考訳(メタデータ) (2024-11-19T11:59:54Z) - Direct and Explicit 3D Generation from a Single Image [25.207277983430608]
マルチビュー2次元深度画像とRGB画像を用いて表面形状とテクスチャを直接生成する新しいフレームワークを提案する。
画素レベルの多視点整合性を実現するために,エピポーラの注意を潜時から画素間デコーダに組み込む。
生成した深度画素を3次元空間にバックプロジェクションすることにより、構造化された3次元表現を生成する。
論文 参考訳(メタデータ) (2024-11-17T03:14:50Z) - ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - L3DG: Latent 3D Gaussian Diffusion [74.36431175937285]
L3DGは3次元ガウス拡散定式化による3次元ガウスの3次元モデリングのための最初のアプローチである。
我々は、部屋の大きさのシーンで効率的に操作するために、スパース畳み込みアーキテクチャーを用いている。
3Dガウス表現を利用することで、生成されたシーンを任意の視点からリアルタイムでレンダリングすることができる。
論文 参考訳(メタデータ) (2024-10-17T13:19:32Z) - Efficient 3D Shape Generation via Diffusion Mamba with Bidirectional SSMs [16.05598829701769]
3次元点雲生成に適した新しい拡散アーキテクチャーDiffusion Mamba (DiM-3D)を提案する。
DiM-3Dは従来の注意機構を捨て、代わりにMambaアーキテクチャの本質的な効率を利用して、シーケンス長に関する線形複雑性を維持する。
ShapeNetベンチマークによる実験結果から、DEM-3Dは高忠実で多様な3D形状を生成する上で、最先端の性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-06-07T16:02:07Z) - Deepfake Detection: Leveraging the Power of 2D and 3D CNN Ensembles [0.0]
本研究は,映像コンテンツの検証に革新的なアプローチを提案する。
この手法は高度な2次元および3次元畳み込みニューラルネットワークをブレンドする。
実験による検証は、この戦略の有効性を強調し、ディープフェイクの発生に対処する可能性を示している。
論文 参考訳(メタデータ) (2023-10-25T06:00:37Z) - TriPlaneNet: An Encoder for EG3D Inversion [1.9567015559455132]
NeRFをベースとしたGANは、人間の頭部の高分解能かつ高忠実な生成モデリングのための多くのアプローチを導入している。
2D GANインバージョンのための普遍的最適化に基づく手法の成功にもかかわらず、3D GANに適用された手法は、結果を新しい視点に外挿することができないかもしれない。
本稿では,EG3D生成モデルに提示された3面表現を直接利用することにより,両者のギャップを埋める高速な手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T17:56:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。