論文の概要: Direct3D-S2: Gigascale 3D Generation Made Easy with Spatial Sparse Attention
- arxiv url: http://arxiv.org/abs/2505.17412v2
- Date: Mon, 26 May 2025 17:47:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:55.658613
- Title: Direct3D-S2: Gigascale 3D Generation Made Easy with Spatial Sparse Attention
- Title(参考訳): Direct3D-S2:空間空間の間隔を考慮したギガスケール3D生成
- Authors: Shuang Wu, Youtian Lin, Feihu Zhang, Yifei Zeng, Yikang Yang, Yajie Bao, Jiachen Qian, Siyu Zhu, Xun Cao, Philip Torr, Yao Yao,
- Abstract要約: スパースボリュームに基づくスケーラブルな3D生成フレームワークであるDirect3D-S2は、トレーニングコストを大幅に削減して、優れた出力品質を実現する。
主な革新は空間スパースアテンション機構であり、これはスパース体積データ上での拡散変換器(DiT)計算の効率を大幅に向上させるものである。
我々のフレームワークには、入力、潜時、出力ステージ間で一貫したスパースボリュームフォーマットを維持する変分オートエンコーダ(VAE)も含まれている。
- 参考スコア(独自算出の注目度): 27.75433066281562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating high-resolution 3D shapes using volumetric representations such as Signed Distance Functions (SDFs) presents substantial computational and memory challenges. We introduce Direct3D-S2, a scalable 3D generation framework based on sparse volumes that achieves superior output quality with dramatically reduced training costs. Our key innovation is the Spatial Sparse Attention (SSA) mechanism, which greatly enhances the efficiency of Diffusion Transformer (DiT) computations on sparse volumetric data. SSA allows the model to effectively process large token sets within sparse volumes, substantially reducing computational overhead and achieving a 3.9x speedup in the forward pass and a 9.6x speedup in the backward pass. Our framework also includes a variational autoencoder (VAE) that maintains a consistent sparse volumetric format across input, latent, and output stages. Compared to previous methods with heterogeneous representations in 3D VAE, this unified design significantly improves training efficiency and stability. Our model is trained on public available datasets, and experiments demonstrate that Direct3D-S2 not only surpasses state-of-the-art methods in generation quality and efficiency, but also enables training at 1024 resolution using only 8 GPUs, a task typically requiring at least 32 GPUs for volumetric representations at 256 resolution, thus making gigascale 3D generation both practical and accessible. Project page: https://www.neural4d.com/research/direct3d-s2.
- Abstract(参考訳): 署名距離関数 (Signed Distance Function, SDF) などのボリューム表現を用いた高解像度な3次元形状の生成は, 計算と記憶に重大な課題をもたらす。
Direct3D-S2は、疎ボリュームに基づくスケーラブルな3D生成フレームワークで、トレーニングコストを劇的に削減し、優れた出力品質を実現する。
我々の重要な革新は空間スパースアテンション(SSA)機構であり、これは疎体積データ上での拡散変換器(DiT)計算の効率を大幅に向上させるものである。
SSAは、大きなトークンセットをスパースボリューム内で効果的に処理し、計算オーバーヘッドを大幅に削減し、前方パスで3.9倍のスピードアップ、後方パスで9.6倍のスピードアップを達成する。
我々のフレームワークには、入力、潜時、出力ステージ間で一貫したスパースボリュームフォーマットを維持する変分オートエンコーダ(VAE)も含まれている。
3D VAEにおける異種表現を用いた従来の手法と比較して、この統一設計はトレーニング効率と安定性を著しく向上させる。
我々のモデルは、公開データセットに基づいてトレーニングされており、Direct3D-S2は、生成の質と効率において最先端の手法を超えるだけでなく、256の解像度でボリューム表現に少なくとも32GPUを必要とするタスクである、わずか8つのGPUを使用して1024の解像度でのトレーニングを可能にすることを実証している。
プロジェクトページ: https://www.neural4d.com/research/direct3d-s2。
関連論文リスト
- TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models [69.0220314849478]
TripoSGは、入力画像に正確に対応した高忠実度3Dメッシュを生成することができる新しい合理化形状拡散パラダイムである。
結果として得られた3D形状は、高解像度の能力によって細部が強化され、入力画像に異常な忠実さを示す。
3Dジェネレーションの分野における進歩と革新を促進するため、我々はモデルを一般公開する。
論文 参考訳(メタデータ) (2025-02-10T16:07:54Z) - Zero-1-to-G: Taming Pretrained 2D Diffusion Model for Direct 3D Generation [66.75243908044538]
我々は,事前学習した2次元拡散モデルを用いたガウススプラット上での3次元直接生成手法であるZero-1-to-Gを導入する。
3D認識を取り入れるために,複雑な相関関係を捉え,生成されたスプラット間の3D一貫性を強制する,クロスビュー層とクロスアトリビュートアテンション層を導入する。
これにより、Zero-1-to-Gは、事前訓練された2D拡散前処理を効果的に活用する最初の直接画像から3D生成モデルとなり、効率的なトレーニングと未確認物体への一般化が実現された。
論文 参考訳(メタデータ) (2025-01-09T18:37:35Z) - Wavelet Latent Diffusion (Wala): Billion-Parameter 3D Generative Model with Compact Wavelet Encodings [15.2983201224858]
大規模3次元生成モデルは計算資源を必要とするが、細部や複雑な地形を高解像度で捉えるには不足することが多い。
我々はウェーブレット遅延拡散(WaLa)と呼ばれる新しい手法を導入し、3次元形状をコンパクトな潜時符号化に符号化する。
具体的には、2563ドルの符号付き距離場を123倍の遅延格子に圧縮し、2427倍の圧縮比を達成した。
我々のモデルは条件付きと無条件の両方で、約10億のパラメータを含み、高品質な3D形状を2563$で生成することに成功した。
論文 参考訳(メタデータ) (2024-11-12T18:49:06Z) - VividDreamer: Towards High-Fidelity and Efficient Text-to-3D Generation [69.68568248073747]
拡散に基づく3次元生成タスクにおいて, ポーズ依存型連続蒸留サンプリング (PCDS) を提案する。
PCDSは拡散軌道内でポーズ依存整合関数を構築し、最小サンプリングステップで真の勾配を近似することができる。
そこで我々は,まず1ステップのPCDSを用いて3Dオブジェクトの基本構造を作成し,さらに徐々にPCDSのステップを拡大して細かな細部を生成する,粗大な最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-21T08:21:52Z) - Compress3D: a Compressed Latent Space for 3D Generation from a Single Image [27.53099431097921]
トリプレーンオートエンコーダは3次元モデルをコンパクトな3次元ラテント空間に符号化し、3次元幾何情報とテクスチャ情報の両方を圧縮する。
本稿では,低解像度の潜在表現を用いて高解像度の3D特徴量から特徴を問合せする3D対応のクロスアテンション機構を提案する。
われわれのアプローチでは、1つのA100 GPU上で7秒で高品質な3Dアセットを生成できる。
論文 参考訳(メタデータ) (2024-03-20T11:51:04Z) - LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。
提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。
3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-18T17:54:34Z) - Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation [18.964403296437027]
Act3Dは、手作業に依存する適応的な解像度を持つ3D特徴体を用いて、ロボットのワークスペースを表現する。
粗い方法で3Dポイントグリッドをサンプリングし、相対的な位置の注意を使ってそれらを巧みに加工し、次の点サンプリングのラウンドにフォーカスする場所を選択する。
論文 参考訳(メタデータ) (2023-06-30T17:34:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。