Fugu-MT 論文翻訳(概要): Baking Gaussian Splatting into Diffusion Denoiser for Fast and Scalable Single-stage Image-to-3D Generation

論文の概要: Baking Gaussian Splatting into Diffusion Denoiser for Fast and Scalable Single-stage Image-to-3D Generation

arxiv url: http://arxiv.org/abs/2411.14384v1
Date: Thu, 21 Nov 2024 18:21:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:49.909719
Title: Baking Gaussian Splatting into Diffusion Denoiser for Fast and Scalable Single-stage Image-to-3D Generation
Title（参考訳）: 高速かつスケーラブルな1段画像-3D生成のための拡散デノイザへのガウススティング
Authors: Yuanhao Cai, He Zhang, Kai Zhang, Yixun Liang, Mengwei Ren, Fujun Luan, Qing Liu, Soo Ye Kim, Jianming Zhang, Zhifei Zhang, Yuqian Zhou, Zhe Lin, Alan Yuille,
Abstract要約: 単一視点からのオブジェクトおよびシーン生成のための新しい1段3次元拡散モデルDiffusionGSを提案する。実験の結果,PSNRでは2.20dB,FIDでは23.25dB,SOTA法では5倍以上の速度(A100 GPUでは6s)が得られた。
参考スコア（独自算出の注目度）: 45.95218923564575
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing feed-forward image-to-3D methods mainly rely on 2D multi-view diffusion models that cannot guarantee 3D consistency. These methods easily collapse when changing the prompt view direction and mainly handle object-centric prompt images. In this paper, we propose a novel single-stage 3D diffusion model, DiffusionGS, for object and scene generation from a single view. DiffusionGS directly outputs 3D Gaussian point clouds at each timestep to enforce view consistency and allow the model to generate robustly given prompt views of any directions, beyond object-centric inputs. Plus, to improve the capability and generalization ability of DiffusionGS, we scale up 3D training data by developing a scene-object mixed training strategy. Experiments show that our method enjoys better generation quality (2.20 dB higher in PSNR and 23.25 lower in FID) and over 5x faster speed (~6s on an A100 GPU) than SOTA methods. The user study and text-to-3D applications also reveals the practical values of our method. Our Project page at https://caiyuanhao1998.github.io/project/DiffusionGS/ shows the video and interactive generation results.
Abstract（参考訳）: 既存のフィードフォワード画像-3D法は主に3D一貫性を保証できない2次元多視点拡散モデルに依存している。これらの方法は、プロンプトビュー方向を変更すると容易に崩壊し、主にオブジェクト中心のプロンプトイメージを処理する。本稿では,1つの視点からオブジェクトとシーンを生成するための,新しい1段3次元拡散モデルDiffusionGSを提案する。 DiffusionGSは各タイミングで3Dガウス点雲を直接出力し、ビューの一貫性を強制し、モデルがオブジェクト中心の入力を超えた任意の方向のプロンプトビューを強固に生成できるようにする。さらに,DiffusionGSの能力と一般化能力を向上させるために,シーンオブジェクト混在学習戦略を開発することにより,3次元トレーニングデータをスケールアップする。実験の結果,PSNRでは2.20dB,FIDでは23.25dB,SOTA法では5倍の高速化(A100 GPUでは6s)を達成できた。また,ユーザスタディとテキスト・トゥ・3Dの応用により,本手法の実用的価値を明らかにした。プロジェクトページはhttps://caiyuanhao1998.github.io/ project/DiffusionGS/で、ビデオとインタラクティブな生成結果を示している。

関連論文リスト

ScenDi: 3D-to-2D Scene Diffusion Cascades for Urban Generation [53.049890350639366]
本研究では,3次元拡散モデルと2次元拡散モデルを統合した都市景観生成手法であるScenDiを提案する。粗い3Dシーンを2Dビデオ拡散のガイダンスとして活用することにより、ScenDiは入力条件に基づいて所望のシーンを生成し、正確なカメラ軌道に順応する。
論文参考訳（メタデータ） (2026-01-21T17:53:21Z)
SPAR3D: Stable Point-Aware Reconstruction of 3D Objects from Single Images [49.7344030427291]
単一画像の3Dオブジェクト再構成の問題点について検討する。最近の研究は回帰モデルと生成モデルという2つの方向に分かれている。両方向を最大限に活用するための新しい2段階アプローチであるSPAR3Dを提案する。
論文参考訳（メタデータ） (2025-01-08T18:52:03Z)
GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction [52.04103235260539]
単一視点からの3次元オブジェクト再構成のためのガウススプティング表現に基づく拡散モデル手法を提案する。モデルはGS楕円体の集合で表される3Dオブジェクトを生成することを学習する。最終的な再構成されたオブジェクトは、高品質な3D構造とテクスチャを持ち、任意のビューで効率的にレンダリングできる。
論文参考訳（メタデータ） (2024-07-05T03:43:08Z)
Sampling 3D Gaussian Scenes in Seconds with Latent Diffusion Models [3.9373541926236766]
本稿では,2次元画像データのみを用いて3次元シーン上での潜時拡散モデルを提案する。我々は,スクラッチからでもスパースインプットビューからでも,わずか0.2秒で3Dシーンを生成することができることを示す。
論文参考訳（メタデータ） (2024-06-18T23:14:29Z)
SuperGaussian: Repurposing Video Models for 3D Super Resolution [67.19266415499139]
本稿では,幾何学的および外観的詳細を付加することにより,粗い3次元モデルをアップサンプルする,単純でモジュラーで汎用的な手法を提案する。既存の3次元超解像モデルを直接再利用できることを実証する。
論文参考訳（メタデータ） (2024-06-02T03:44:50Z)
Sp2360: Sparse-view 360 Scene Reconstruction using Cascaded 2D Diffusion Priors [51.36238367193988]
潜時拡散モデル(LDM)を用いた360度3次元シーンのスパースビュー再構成に挑戦する。 SparseSplat360は,未完成の細部を埋めたり,新しいビューをクリーンにするために,インペイントとアーティファクト除去のカスケードを利用する手法である。提案手法は,9つの入力ビューから360度映像全体を生成する。
論文参考訳（メタデータ） (2024-05-26T11:01:39Z)
RealmDreamer: Text-Driven 3D Scene Generation with Inpainting and Depth Diffusion [39.03289977892935]
RealmDreamerはテキスト記述から前方の3Dシーンを生成する技術である。本研究では, 初期現場推定値に条件付き2次元塗布拡散モデルを利用して, 3次元蒸留における未知領域の低分散監視を行う。特に,ビデオやマルチビューのデータを必要とせず,複雑なレイアウトで様々なスタイルの高品質な3Dシーンを合成することができる。
論文参考訳（メタデータ） (2024-04-10T17:57:41Z)
Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文参考訳（メタデータ） (2024-03-14T07:39:59Z)
V3D: Video Diffusion Models are Effective 3D Generators [19.33837029942662]
本稿では、事前学習したビデオ拡散モデルの世界シミュレーション能力を活用して、3D生成を容易にするV3Dを紹介する。これを利用して、最先端のビデオ拡散モデルを微調整して、1つの画像が与えられた物体を囲む360度軌道フレームを生成することができる。提案手法はシーンレベルの新規ビュー合成に拡張可能であり,スパース・インプット・ビューによるカメラ・パスの正確な制御を実現する。
論文参考訳（メタデータ） (2024-03-11T14:03:36Z)
One-2-3-45++: Fast Single Image to 3D Objects with Consistent Multi-View Generation and 3D Diffusion [32.29687304798145]
One-2-3-45++は、1つの画像を1分で詳細な3Dテクスチャメッシュに変換する革新的な方法である。提案手法は,2次元拡散モデルに埋め込まれた広範囲な知識を,貴重な3次元データから活用することを目的としている。
論文参考訳（メタデータ） (2023-11-14T03:40:25Z)
Instant3D: Fast Text-to-3D with Sparse-View Generation and Large Reconstruction Model [68.98311213582949]
テキストプロンプトから高品質で多様な3Dアセットをフィードフォワードで生成する新しい手法であるInstant3Dを提案する。提案手法は,従来の最適化手法よりも2桁早く,20秒以内に高画質の多種多様な3Dアセットを生成できる。
論文参考訳（メタデータ） (2023-11-10T18:03:44Z)
GaussianDreamer: Fast Generation from Text to 3D Gaussians by Bridging 2D and 3D Diffusion Models [102.22388340738536]
2Dおよび3D拡散モデルは、プロンプトに基づいて適切な3Dオブジェクトを生成することができる。 3次元拡散モデルには優れた3次元整合性があるが、トレーニング可能な3次元データは高価で入手が難しいため、その品質と一般化は制限されている。本稿では,2種類の拡散モデルから近年の明示的かつ効率的な3次元ガウススプラッティング表現を通じて電力を橋渡ししようとする。
論文参考訳（メタデータ） (2023-10-12T17:22:24Z)
Sparse3D: Distilling Multiview-Consistent Diffusion for Object Reconstruction from Sparse Views [47.215089338101066]
スパースビュー入力に適した新しい3D再構成手法であるスパース3Dを提案する。提案手法は,多視点拡散モデルから頑健な先行情報を抽出し,ニューラルラディアンス場を改良する。強力な画像拡散モデルから2Dプリエントをタップすることで、我々の統合モデルは、常に高品質な結果をもたらす。
論文参考訳（メタデータ） (2023-08-27T11:52:00Z)
Control3Diff: Learning Controllable 3D Diffusion Models from Single-view Images [70.17085345196583]
Control3Diffは拡散モデルと3D GANの強みを組み合わせた3次元拡散モデルである。 FFHQ,AFHQ,ShapeNet などの標準画像生成ベンチマークにおける Control3Diff の有効性を検証する。
論文参考訳（メタデータ） (2023-04-13T17:52:29Z)
3D-aware Image Generation using 2D Diffusion Models [23.150456832947427]
我々は、3D対応画像生成タスクをマルチビュー2Dイメージセット生成として定式化し、さらにシーケンシャルな条件なしのマルチビュー画像生成プロセスにも適用する。本研究では,2次元拡散モデルを用いて生成的モデリング能力を向上する。我々は,既存の手法では扱えない大規模データセットであるImageNetで,本手法を訓練する。
論文参考訳（メタデータ） (2023-03-31T09:03:18Z)
RenderDiffusion: Image Diffusion for 3D Reconstruction, Inpainting and Generation [68.06991943974195]
単分子2次元観察のみを用いて学習した3次元生成と推論のための最初の拡散モデルであるRenderDiffusionを提案する。 FFHQ,AFHQ,ShapeNet,CLEVRのデータセット上でRenderDiffusionを評価し,3Dシーンの生成と2D画像からの3Dシーンの推測の競合性能を示した。
論文参考訳（メタデータ） (2022-11-17T20:17:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。