論文の概要: Baking Gaussian Splatting into Diffusion Denoiser for Fast and Scalable Single-stage Image-to-3D Generation and Reconstruction
- arxiv url: http://arxiv.org/abs/2411.14384v3
- Date: Sat, 08 Mar 2025 17:52:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:39:42.710995
- Title: Baking Gaussian Splatting into Diffusion Denoiser for Fast and Scalable Single-stage Image-to-3D Generation and Reconstruction
- Title(参考訳): 高速かつスケーラブルな1段画像から3次元画像の生成と再構成のための拡散デノイザへのベーキングガウススティング
- Authors: Yuanhao Cai, He Zhang, Kai Zhang, Yixun Liang, Mengwei Ren, Fujun Luan, Qing Liu, Soo Ye Kim, Jianming Zhang, Zhifei Zhang, Yuqian Zhou, Yulun Zhang, Xiaokang Yang, Zhe Lin, Alan Yuille,
- Abstract要約: 単一視点からのオブジェクト生成とシーン再構成のための新しい1段3次元拡散モデルDiffusionGSを提案する。
DiffusionGSはビュー一貫性を強制するために、各タイミングで3Dガウス点雲を直接出力する。
DiffusionGSは、オブジェクトやシーンのPSNR/FIDにおいて2.20dB/23.25と1.34dB/19.16の改善をもたらすことを示した。
- 参考スコア(独自算出の注目度): 97.924188608301
- License:
- Abstract: Existing feedforward image-to-3D methods mainly rely on 2D multi-view diffusion models that cannot guarantee 3D consistency. These methods easily collapse when changing the prompt view direction and mainly handle object-centric cases. In this paper, we propose a novel single-stage 3D diffusion model, DiffusionGS, for object generation and scene reconstruction from a single view. DiffusionGS directly outputs 3D Gaussian point clouds at each timestep to enforce view consistency and allow the model to generate robustly given prompt views of any directions, beyond object-centric inputs. Plus, to improve the capability and generality of DiffusionGS, we scale up 3D training data by developing a scene-object mixed training strategy. Experiments show that DiffusionGS yields improvements of 2.20 dB/23.25 and 1.34 dB/19.16 in PSNR/FID for objects and scenes than the state-of-the-art methods, without depth estimator. Plus, our method enjoys over 5$\times$ faster speed ($\sim$6s on an A100 GPU). Our Project page at https://caiyuanhao1998.github.io/project/DiffusionGS/ shows the video and interactive results.
- Abstract(参考訳): 既存のフィードフォワード画像-3D法は主に3D一貫性を保証できない2次元多視点拡散モデルに依存している。
これらの方法は、プロンプトビューの方向を変えると容易に崩壊し、主にオブジェクト中心のケースを扱う。
本稿では,オブジェクト生成とシーン再構築のための新しい1段3次元拡散モデルDiffusionGSを提案する。
DiffusionGSは各タイミングで3Dガウス点雲を直接出力し、ビューの一貫性を強制し、モデルがオブジェクト中心の入力を超えた任意の方向のプロンプトビューを強固に生成できるようにする。
さらに,DiffusionGSの能力と汎用性を向上させるために,シーンオブジェクト混在トレーニング戦略を開発することにより,3次元トレーニングデータをスケールアップする。
実験の結果、DiffusionGSは2.20dB/23.25と1.34dB/19.16のPSNR/FIDを改善した。
さらに、我々の手法は5$\times$ faster speed(A100 GPU上では\sim$6s)で楽しめます。
プロジェクトページはhttps://caiyuanhao1998.github.io/ project/DiffusionGS/で、ビデオとインタラクティブな結果を示している。
関連論文リスト
- Zero-1-to-G: Taming Pretrained 2D Diffusion Model for Direct 3D Generation [66.75243908044538]
我々は,事前学習した2次元拡散モデルを用いたガウススプラット上での3次元直接生成手法であるZero-1-to-Gを導入する。
3D認識を取り入れるために,複雑な相関関係を捉え,生成されたスプラット間の3D一貫性を強制する,クロスビュー層とクロスアトリビュートアテンション層を導入する。
これにより、Zero-1-to-Gは、事前訓練された2D拡散前処理を効果的に活用する最初の直接画像から3D生成モデルとなり、効率的なトレーニングと未確認物体への一般化が実現された。
論文 参考訳(メタデータ) (2025-01-09T18:37:35Z) - Prometheus: 3D-Aware Latent Diffusion Models for Feed-Forward Text-to-3D Scene Generation [51.36926306499593]
Prometheusはオブジェクトレベルとシーンレベルの両方を秒単位でテキストから3D生成するための3D対応潜時拡散モデルである。
遅延拡散パラダイムにおいて、3Dシーン生成を多視点, フィードフォワード, ピクセルアラインな3Dガウス生成として定式化する。
論文 参考訳(メタデータ) (2024-12-30T17:44:23Z) - Sampling 3D Gaussian Scenes in Seconds with Latent Diffusion Models [3.9373541926236766]
本稿では,2次元画像データのみを用いて3次元シーン上での潜時拡散モデルを提案する。
我々は,スクラッチからでもスパースインプットビューからでも,わずか0.2秒で3Dシーンを生成することができることを示す。
論文 参考訳(メタデータ) (2024-06-18T23:14:29Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - V3D: Video Diffusion Models are Effective 3D Generators [19.33837029942662]
本稿では、事前学習したビデオ拡散モデルの世界シミュレーション能力を活用して、3D生成を容易にするV3Dを紹介する。
これを利用して、最先端のビデオ拡散モデルを微調整して、1つの画像が与えられた物体を囲む360度軌道フレームを生成することができる。
提案手法はシーンレベルの新規ビュー合成に拡張可能であり,スパース・インプット・ビューによるカメラ・パスの正確な制御を実現する。
論文 参考訳(メタデータ) (2024-03-11T14:03:36Z) - One-2-3-45++: Fast Single Image to 3D Objects with Consistent Multi-View
Generation and 3D Diffusion [32.29687304798145]
One-2-3-45++は、1つの画像を1分で詳細な3Dテクスチャメッシュに変換する革新的な方法である。
提案手法は,2次元拡散モデルに埋め込まれた広範囲な知識を,貴重な3次元データから活用することを目的としている。
論文 参考訳(メタデータ) (2023-11-14T03:40:25Z) - Instant3D: Fast Text-to-3D with Sparse-View Generation and Large
Reconstruction Model [68.98311213582949]
テキストプロンプトから高品質で多様な3Dアセットをフィードフォワードで生成する新しい手法であるInstant3Dを提案する。
提案手法は,従来の最適化手法よりも2桁早く,20秒以内に高画質の多種多様な3Dアセットを生成できる。
論文 参考訳(メタデータ) (2023-11-10T18:03:44Z) - 3D-aware Image Generation using 2D Diffusion Models [23.150456832947427]
我々は、3D対応画像生成タスクをマルチビュー2Dイメージセット生成として定式化し、さらにシーケンシャルな条件なしのマルチビュー画像生成プロセスにも適用する。
本研究では,2次元拡散モデルを用いて生成的モデリング能力を向上する。
我々は,既存の手法では扱えない大規模データセットであるImageNetで,本手法を訓練する。
論文 参考訳(メタデータ) (2023-03-31T09:03:18Z) - RenderDiffusion: Image Diffusion for 3D Reconstruction, Inpainting and
Generation [68.06991943974195]
単分子2次元観察のみを用いて学習した3次元生成と推論のための最初の拡散モデルであるRenderDiffusionを提案する。
FFHQ,AFHQ,ShapeNet,CLEVRのデータセット上でRenderDiffusionを評価し,3Dシーンの生成と2D画像からの3Dシーンの推測の競合性能を示した。
論文 参考訳(メタデータ) (2022-11-17T20:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。