論文の概要: Distilling Multi-view Diffusion Models into 3D Generators
- arxiv url: http://arxiv.org/abs/2504.00457v3
- Date: Thu, 03 Apr 2025 01:44:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:58:05.699900
- Title: Distilling Multi-view Diffusion Models into 3D Generators
- Title(参考訳): 3次元発電機への多視点拡散モデルの蒸留
- Authors: Hao Qin, Luyuan Chen, Ming Kong, Mengxu Lu, Qiang Zhu,
- Abstract要約: 本稿では,多視点拡散モデル(MV-DM)をガウススプラッティングを用いた3次元ジェネレータに拡散させる定式化であるDD3Gを紹介する。
DD3GはMV-DMから広範囲の視覚的および空間的知識を圧縮し統合する。
本稿では,パターン抽出とプログレッシブデコーディングのフェーズからなるジェネレータPEPDを提案する。
- 参考スコア(独自算出の注目度): 4.3238419212557115
- License:
- Abstract: We introduce DD3G, a formulation that Distills a multi-view Diffusion model (MV-DM) into a 3D Generator using gaussian splatting. DD3G compresses and integrates extensive visual and spatial geometric knowledge from the MV-DM by simulating its ordinary differential equation (ODE) trajectory, ensuring the distilled generator generalizes better than those trained solely on 3D data. Unlike previous amortized optimization approaches, we align the MV-DM and 3D generator representation spaces to transfer the teacher's probabilistic flow to the student, thus avoiding inconsistencies in optimization objectives caused by probabilistic sampling. The introduction of probabilistic flow and the coupling of various attributes in 3D Gaussians introduce challenges in the generation process. To tackle this, we propose PEPD, a generator consisting of Pattern Extraction and Progressive Decoding phases, which enables efficient fusion of probabilistic flow and converts a single image into 3D Gaussians within 0.06 seconds. Furthermore, to reduce knowledge loss and overcome sparse-view supervision, we design a joint optimization objective that ensures the quality of generated samples through explicit supervision and implicit verification. Leveraging existing 2D generation models, we compile 120k high-quality RGBA images for distillation. Experiments on synthetic and public datasets demonstrate the effectiveness of our method. Our project is available at: https://qinbaigao.github.io/DD3G_project/
- Abstract(参考訳): 本稿では,多視点拡散モデル(MV-DM)をガウススプラッティングを用いた3次元ジェネレータに拡散させる定式化であるDD3Gを紹介する。
DD3Gは、通常の微分方程式(ODE)軌道をシミュレートすることで、MV-DMから広範囲の視覚的および空間的幾何学的知識を圧縮し、統合し、蒸留した生成物が3Dデータでのみ訓練されたものよりも良く一般化することを保証する。
従来の最適化手法とは異なり、MV-DMと3Dジェネレータの表現空間は教師の確率的流れを学生に伝達するために整列し、確率的サンプリングによる最適化目標の不整合を回避する。
確率フローの導入と3次元ガウシアンにおける様々な属性の結合は、生成過程における課題を提起する。
そこで我々は,パターン抽出とプログレッシブデコーディングのフェーズからなるジェネレータPEPDを提案し,確率的フローの効率よく融合し,画像を0.06秒で3Dガウスに変換する。
さらに、知識損失を低減し、スパースビューの監督を克服するために、明示的な監督と暗黙的な検証によって生成されたサンプルの品質を保証する共同最適化目標を設計する。
既存の2次元生成モデルを利用して,120kの高品質なRGBA画像を蒸留のためにコンパイルする。
合成および公開データセットの実験により,本手法の有効性が示された。
私たちのプロジェクトは、https://qinbaigao.github.io/DD3G_project/で利用可能です。
関連論文リスト
- DiffSplat: Repurposing Image Diffusion Models for Scalable Gaussian Splat Generation [33.62074896816882]
DiffSplatは,大規模テキスト・画像拡散モデルを用いて3次元ガウススプラットを生成する新しい3次元生成フレームワークである。
従来の3D生成モデルと異なり、Webスケールの2D事前を効果的に活用しつつ、統一モデルにおける3D一貫性を維持している。
これらの格子上の正規拡散損失と合わせて、3Dレンダリング損失を導入し、任意のビューの3Dコヒーレンスを促進する。
論文 参考訳(メタデータ) (2025-01-28T07:38:59Z) - DSplats: 3D Generation by Denoising Splats-Based Multiview Diffusion Models [67.50989119438508]
本稿では,ガウスをベースとしたレコンストラクタを用いて,リアルな3Dアセットを生成することで,マルチビュー画像を直接認識するDSplatを紹介した。
実験の結果,DSplatsは高品質で空間的に一貫した出力を生成できるだけでなく,単一画像から3次元再構成への新たな標準も設定できることがわかった。
論文 参考訳(メタデータ) (2024-12-11T07:32:17Z) - A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本研究では,ガウスプレートの拡散モデルであるSplatDiffusionを導入し,単一画像から3次元構造を生成する。
既存の方法は決定論的フィードフォワード予測に依存しており、2Dデータからの3D推論の本質的な曖昧さを扱う能力を制限する。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - L3DG: Latent 3D Gaussian Diffusion [74.36431175937285]
L3DGは3次元ガウス拡散定式化による3次元ガウスの3次元モデリングのための最初のアプローチである。
我々は、部屋の大きさのシーンで効率的に操作するために、スパース畳み込みアーキテクチャーを用いている。
3Dガウス表現を利用することで、生成されたシーンを任意の視点からリアルタイムでレンダリングすることができる。
論文 参考訳(メタデータ) (2024-10-17T13:19:32Z) - Atlas Gaussians Diffusion for 3D Generation [37.68480030996363]
潜在拡散モデルは、新しい3D生成技術の開発に有効であることが証明されている。
鍵となる課題は、潜在空間と3D空間を結びつける高忠実で効率的な表現を設計することである。
我々は、フィードフォワードネイティブな3D生成のための新しい表現であるAtlas Gaussiansを紹介する。
論文 参考訳(メタデータ) (2024-08-23T13:27:27Z) - AGG: Amortized Generative 3D Gaussians for Single Image to 3D [108.38567665695027]
Amortized Generative 3D Gaussian framework (AGG) を導入する。
AGGは、共同最適化のための3Dガウス位置およびその他の外観特性の生成を分解する。
本稿では,まず3次元データの粗い表現を生成し,後に3次元ガウス超解像モジュールでアップサンプリングするカスケードパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-08T18:56:33Z) - GaussianDiffusion: 3D Gaussian Splatting for Denoising Diffusion Probabilistic Models with Structured Noise [0.0]
本稿では3Dコンテンツ生成フレームワークであるGaussian Diffusionについて,Gaussian Splattingに基づく新しいテキストを紹介した。
3次元生成における多視点一貫性の実現という課題は、モデリングの複雑さと精度を著しく損なう。
本稿では,3次元外観の質と安定性を高めるため,変分ガウススメッティング法を提案する。
論文 参考訳(メタデータ) (2023-11-19T04:26:16Z) - DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation [55.661467968178066]
本稿では,DreamGaussianを提案する。DreamGaussianは,効率と品質を両立させる新しい3Dコンテンツ生成フレームワークである。
我々の重要な洞察は、UV空間におけるメッシュ抽出とテクスチャ改善を伴う3次元ガウススプラッティングモデルを設計することである。
ニューラル・ラジアンス・フィールドにおける占有プルーニングとは対照的に、3次元ガウスの進行的な密度化は3次元生成タスクにおいて著しく速く収束することを示した。
論文 参考訳(メタデータ) (2023-09-28T17:55:05Z) - NeRF-GAN Distillation for Efficient 3D-Aware Generation with
Convolutions [97.27105725738016]
GAN(Generative Adversarial Networks)のようなニューラルラジアンスフィールド(NeRF)と生成モデルの統合は、単一ビュー画像から3D認識生成を変換した。
提案手法は,ポーズ条件付き畳み込みネットワークにおいて,事前学習したNeRF-GANの有界遅延空間を再利用し,基礎となる3次元表現に対応する3D一貫性画像を直接生成する手法である。
論文 参考訳(メタデータ) (2023-03-22T18:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。