論文の概要: Multi-scale Latent Point Consistency Models for 3D Shape Generation
- arxiv url: http://arxiv.org/abs/2412.19413v1
- Date: Fri, 27 Dec 2024 02:41:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:26:18.794463
- Title: Multi-scale Latent Point Consistency Models for 3D Shape Generation
- Title(参考訳): 3次元形状生成のためのマルチスケール潜在点整合性モデル
- Authors: Bi'an Du, Wei Hu, Renjie Liao,
- Abstract要約: MLPCM(Multi-scale Latent Point Consistency Model)を提案する。
OurCMは遅延拡散フレームワークに従い、ポイントレベルからスーパーポイントレベルまで、階層的な潜在表現レベルを導入します。
また,前者を1ステップの発電機に圧縮する潜時整合モデルを提案する。
- 参考スコア(独自算出の注目度): 22.680686510724467
- License:
- Abstract: Consistency Models (CMs) have significantly accelerated the sampling process in diffusion models, yielding impressive results in synthesizing high-resolution images. To explore and extend these advancements to point-cloud-based 3D shape generation, we propose a novel Multi-scale Latent Point Consistency Model (MLPCM). Our MLPCM follows a latent diffusion framework and introduces hierarchical levels of latent representations, ranging from point-level to super-point levels, each corresponding to a different spatial resolution. We design a multi-scale latent integration module along with 3D spatial attention to effectively denoise the point-level latent representations conditioned on those from multiple super-point levels. Additionally, we propose a latent consistency model, learned through consistency distillation, that compresses the prior into a one-step generator. This significantly improves sampling efficiency while preserving the performance of the original teacher model. Extensive experiments on standard benchmarks ShapeNet and ShapeNet-Vol demonstrate that MLPCM achieves a 100x speedup in the generation process, while surpassing state-of-the-art diffusion models in terms of both shape quality and diversity.
- Abstract(参考訳): Consistency Models (CMs) は拡散モデルのサンプリングプロセスを著しく加速し、高解像度画像の合成に顕著な結果をもたらした。
本稿では,これらの進歩をポイントクラウドベースの3次元形状生成に拡張するために,MLPCM(Multiscale Latent Point Consistency Model)を提案する。
MLPCMは遅延拡散の枠組みに従っており、点レベルから超点レベルまで、それぞれ異なる空間分解能に対応する階層的な潜在表現を導入している。
マルチスケールラテント統合モジュールを3次元空間的注意とともに設計し、複数のスーパーポイントレベルから条件付きポイントレベルのラテント表現を効果的に識別する。
さらに,1ステップの発電機に前処理を圧縮する潜時整合モデルを提案する。
これにより、元の教師モデルの性能を維持しながらサンプリング効率が大幅に向上する。
標準ベンチマークのShapeNetとShapeNet-Volの広範な実験により、MLPCMは生成プロセスにおいて100倍のスピードアップを達成する一方で、形状品質と多様性の両方の観点から最先端の拡散モデルを上回ることが示されている。
関連論文リスト
- MARS: Mesh AutoRegressive Model for 3D Shape Detailization [85.95365919236212]
3次元形状詳細化のための新しいアプローチであるMARSを紹介する。
本稿では,次のLODトークン予測により,そのような潜在表現を生成するメッシュ自己回帰モデルを提案する。
挑戦的な3次元形状Detailizationベンチマークで行った実験により,提案したMARSモデルが最先端の性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-17T03:12:16Z) - 3DEnhancer: Consistent Multi-View Diffusion for 3D Enhancement [66.8116563135326]
本稿では,多視点遅延拡散モデルを用いて,多視点一貫性を維持しながら粗い3次元入力を強化する3DEnhancerを提案する。
既存のビデオベースアプローチとは異なり、我々のモデルは多様な視角のコヒーレンスを改善したシームレスなマルチビュー拡張をサポートする。
論文 参考訳(メタデータ) (2024-12-24T17:36:34Z) - MVGaussian: High-Fidelity text-to-3D Content Generation with Multi-View Guidance and Surface Densification [13.872254142378772]
本稿では,テキスト・ツー・3Dコンテンツ生成のための統合フレームワークを提案する。
提案手法は3次元モデルの構造を反復的に形成するために多視点誘導を利用する。
また,表面近傍にガウスを配向させる新しい密度化アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-09-10T16:16:34Z) - 4Diffusion: Multi-view Video Diffusion Model for 4D Generation [55.82208863521353]
現在の4D生成法は, 高度な拡散生成モデルの助けを借りて, 有意義な有効性を実現している。
モノクロビデオから空間的・時間的に一貫した4Dコンテンツを生成することを目的とした,新しい4D生成パイプライン,すなわち4Diffusionを提案する。
論文 参考訳(メタデータ) (2024-05-31T08:18:39Z) - SC-Diff: 3D Shape Completion with Latent Diffusion Models [4.913210912019975]
本稿では, 形状の完成に最適化された3次元潜在拡散モデルを用いて, 3次元形状完備化手法を提案する。
本手法は,空間的コンディショニングとクロスアテンションによる画像ベースコンディショニングを,キャプチャー部分スキャンからの3次元特徴の統合により組み合わせたものである。
論文 参考訳(メタデータ) (2024-03-19T06:01:11Z) - Unified Generative Modeling of 3D Molecules via Bayesian Flow Networks [19.351562908683334]
GeoBFNは、分布の微分可能なパラメータ空間における様々なモジュラリティをモデル化することによって、分子幾何学に自然に適合する。
我々はGeoBFNが生成品質の観点から,複数の3次元分子生成ベンチマークにおける最先端性能を実現することを実証した。
GeoBFNはまた、効率と品質の最適なトレードオフに到達するために、任意のステップでサンプリングを行うこともできる。
論文 参考訳(メタデータ) (2024-03-17T08:40:06Z) - Latent Consistency Models: Synthesizing High-Resolution Images with
Few-Step Inference [60.32804641276217]
本稿では,LCM(Latent Consistency Models)を提案する。
高品質の768 x 768 24-step LCMは、トレーニングに32A100 GPU時間しかかからない。
また,画像データセットの微調整に適した新しいLCM法であるLCF(Latent Consistency Fine-tuning)についても紹介する。
論文 参考訳(メタデータ) (2023-10-06T17:11:58Z) - Neural Wavelet-domain Diffusion for 3D Shape Generation [52.038346313823524]
本稿では,ウェーブレット領域における連続的暗黙表現の直接生成モデリングを可能にする3次元形状生成の新しい手法を提案する。
具体的には、1対の粗い係数と細部係数の体積を持つコンパクトなウェーブレット表現を提案し、トランケートされた符号付き距離関数とマルチスケールの生体直交ウェーブレットを介して3次元形状を暗黙的に表現する。
論文 参考訳(メタデータ) (2022-09-19T02:51:48Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - 3D Shape Generation and Completion through Point-Voxel Diffusion [24.824065748889048]
3次元形状の確率的生成モデリングのための新しいアプローチを提案する。
Point-Voxel Diffusion (PVD) は、無条件形状生成と条件付き多モード形状完成のための統一的確率的定式化である。
PVDは、観測点雲データからガウスノイズへの拡散過程を逆転させ、(条件付き)確率関数に束縛された変動下限を最適化することにより、一連のデノナイズステップと見なすことができる。
論文 参考訳(メタデータ) (2021-04-08T10:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。