論文の概要: Unleashing Vecset Diffusion Model for Fast Shape Generation
- arxiv url: http://arxiv.org/abs/2503.16302v2
- Date: Wed, 26 Mar 2025 15:08:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:21:26.798645
- Title: Unleashing Vecset Diffusion Model for Fast Shape Generation
- Title(参考訳): 高速形状生成のための解離ベクセット拡散モデル
- Authors: Zeqiang Lai, Yunfei Zhao, Zibo Zhao, Haolin Liu, Fuyun Wang, Huiwen Shi, Xianghui Yang, Qingxiang Lin, Jingwei Huang, Yuhong Liu, Jie Jiang, Chunchao Guo, Xiangyu Yue,
- Abstract要約: FlashVDMはVecset Diffusion Model (VDM)におけるVAEとDiTの両方を高速化するためのフレームワークである
DiTでは、FlashVDMは5つの推論ステップと同等の品質でフレキシブルな拡散サンプリングを可能にする。
VAEでは,適応型KV選択,階層型ボリュームデコーディング,効率的なネットワーク設計を備えた稲妻ベクセットデコーダを導入する。
- 参考スコア(独自算出の注目度): 21.757511934035758
- License:
- Abstract: 3D shape generation has greatly flourished through the development of so-called "native" 3D diffusion, particularly through the Vecset Diffusion Model (VDM). While recent advancements have shown promising results in generating high-resolution 3D shapes, VDM still struggles with high-speed generation. Challenges exist because of difficulties not only in accelerating diffusion sampling but also VAE decoding in VDM, areas under-explored in previous works. To address these challenges, we present FlashVDM, a systematic framework for accelerating both VAE and DiT in VDM. For DiT, FlashVDM enables flexible diffusion sampling with as few as 5 inference steps and comparable quality, which is made possible by stabilizing consistency distillation with our newly introduced Progressive Flow Distillation. For VAE, we introduce a lightning vecset decoder equipped with Adaptive KV Selection, Hierarchical Volume Decoding, and Efficient Network Design. By exploiting the locality of the vecset and the sparsity of shape surface in the volume, our decoder drastically lowers FLOPs, minimizing the overall decoding overhead. We apply FlashVDM to Hunyuan3D-2 to obtain Hunyuan3D-2 Turbo. Through systematic evaluation, we show that our model significantly outperforms existing fast 3D generation methods, achieving comparable performance to the state-of-the-art while reducing inference time by over 45x for reconstruction and 32x for generation. Code and models are available at https://github.com/Tencent/FlashVDM.
- Abstract(参考訳): 3次元形状生成は、いわゆる「ネイティブ」な3次元拡散、特にVecset Diffusion Model(VDM)によって大きく発展してきた。
近年の進歩は高解像度3次元形状の生成に有望な結果を示しているが、VDMは依然として高速発生に苦慮している。
拡散サンプリングを加速させるだけでなく、以前の研究で探索された領域であるVDMにおけるVAE復号化も困難である。
これらの課題に対処するため,VDM における VAE と DiT の双方を高速化するための体系的フレームワーク FlashVDM を提案する。
DiTの場合、FlashVDMは5段階の推論ステップと同等の品質でフレキシブルな拡散サンプリングを可能にします。
VAEでは,適応型KV選択,階層型ボリュームデコーディング,効率的なネットワーク設計を備えた稲妻ベクセットデコーダを導入する。
ボリュームにおけるベクセットの局所性と形状表面の空間性を利用して、デコーダはFLOPを劇的に低下させ、全体的なデコードオーバーヘッドを最小化する。
我々はHunyuan3D-2にFlashVDMを適用してHunyuan3D-2 Turboを得る。
体系的な評価により,本モデルは既存の高速な3次元生成法よりも優れた性能を示し,45倍以上の再現時間,32倍以上の生成時間で予測時間を短縮した。
コードとモデルはhttps://github.com/Tencent/FlashVDMで公開されている。
関連論文リスト
- FlowDreamer: Exploring High Fidelity Text-to-3D Generation via Rectified Flow [17.919092916953183]
本研究では,フロードレーマーという新しいフレームワークを提案し,よりリッチなテキストの詳細とより高速なコンバージェンスで高忠実度な結果を得る。
鍵となる洞察は、修正流れモデルの結合性と可逆性を利用して、対応する雑音を探索することである。
我々は,同じ軌道に沿って3次元モデルを最適化するために,新しい一様マッチング結合(UCM)損失を導入する。
論文 参考訳(メタデータ) (2024-08-09T11:40:20Z) - 4Diffusion: Multi-view Video Diffusion Model for 4D Generation [55.82208863521353]
現在の4D生成法は, 高度な拡散生成モデルの助けを借りて, 有意義な有効性を実現している。
モノクロビデオから空間的・時間的に一貫した4Dコンテンツを生成することを目的とした,新しい4D生成パイプライン,すなわち4Diffusionを提案する。
論文 参考訳(メタデータ) (2024-05-31T08:18:39Z) - LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。
提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。
3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-18T17:54:34Z) - BoostDream: Efficient Refining for High-Quality Text-to-3D Generation from Multi-View Diffusion [0.0]
BoostDreamは、粗い3D資産を高品質に変換するために設計された、高効率なプラグアンドプレイ3D精製手法である。
本研究では, フィードフォワード生成により得られた3次元アセットと異なる表現に適合する3次元モデル蒸留を導入する。
新たな多視点SDS損失を設計し、多視点認識2次元拡散モデルを用いて3次元資産を洗練させる。
論文 参考訳(メタデータ) (2024-01-30T05:59:00Z) - Fast Training of Diffusion Transformer with Extreme Masking for 3D Point
Clouds Generation [64.99362684909914]
我々は,効率的な3次元点雲生成に適したマスク付き拡散変圧器であるFastDiT-3Dを提案する。
また,新しいボクセル対応マスキング手法を提案し,ボクセル化点雲から背景・地上情報を適応的に集約する。
本手法は, マスキング比が99%近い最先端性能を実現する。
論文 参考訳(メタデータ) (2023-12-12T12:50:33Z) - Learn to Optimize Denoising Scores for 3D Generation: A Unified and
Improved Diffusion Prior on NeRF and 3D Gaussian Splatting [60.393072253444934]
本稿では,3次元生成タスクの拡散先行性向上を目的とした統合フレームワークを提案する。
拡散先行と拡散モデルの訓練手順の相違を同定し、3次元生成の質を著しく損なう。
論文 参考訳(メタデータ) (2023-12-08T03:55:34Z) - EMDM: Efficient Motion Diffusion Model for Fast and High-Quality Motion Generation [57.539634387672656]
現在の最先端生成拡散モデルでは、優れた結果が得られたが、品質を犠牲にすることなく、高速な生成に苦慮している。
高速かつ高品質な人体運動生成のための効率的な運動拡散モデル(EMDM)を提案する。
論文 参考訳(メタデータ) (2023-12-04T18:58:38Z) - Fast Point Cloud Generation with Straight Flows [44.76242251282731]
ポイント・ストレート・フロー(Point Straight Flow)は、1ステップで素晴らしいパフォーマンスを示すモデルである。
我々は, 連続経路を1段階に短縮する蒸留法を開発した。
我々は,複数の3次元タスクに対して評価を行い,標準拡散モデルに適合してPSFが動作することを確認した。
論文 参考訳(メタデータ) (2022-12-04T06:10:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。