論文の概要: Zero-1-to-G: Taming Pretrained 2D Diffusion Model for Direct 3D Generation
- arxiv url: http://arxiv.org/abs/2501.05427v1
- Date: Thu, 09 Jan 2025 18:37:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 13:58:56.256104
- Title: Zero-1-to-G: Taming Pretrained 2D Diffusion Model for Direct 3D Generation
- Title(参考訳): Zero-1-to-G:直接3次元生成のための事前学習2次元拡散モデル
- Authors: Xuyi Meng, Chen Wang, Jiahui Lei, Kostas Daniilidis, Jiatao Gu, Lingjie Liu,
- Abstract要約: 我々は,事前学習した2次元拡散モデルを用いたガウススプラット上での3次元直接生成手法であるZero-1-to-Gを導入する。
3D認識を取り入れるために,複雑な相関関係を捉え,生成されたスプラット間の3D一貫性を強制する,クロスビュー層とクロスアトリビュートアテンション層を導入する。
これにより、Zero-1-to-Gは、事前訓練された2D拡散前処理を効果的に活用する最初の直接画像から3D生成モデルとなり、効率的なトレーニングと未確認物体への一般化が実現された。
- 参考スコア(独自算出の注目度): 66.75243908044538
- License:
- Abstract: Recent advances in 2D image generation have achieved remarkable quality,largely driven by the capacity of diffusion models and the availability of large-scale datasets. However, direct 3D generation is still constrained by the scarcity and lower fidelity of 3D datasets. In this paper, we introduce Zero-1-to-G, a novel approach that addresses this problem by enabling direct single-view generation on Gaussian splats using pretrained 2D diffusion models. Our key insight is that Gaussian splats, a 3D representation, can be decomposed into multi-view images encoding different attributes. This reframes the challenging task of direct 3D generation within a 2D diffusion framework, allowing us to leverage the rich priors of pretrained 2D diffusion models. To incorporate 3D awareness, we introduce cross-view and cross-attribute attention layers, which capture complex correlations and enforce 3D consistency across generated splats. This makes Zero-1-to-G the first direct image-to-3D generative model to effectively utilize pretrained 2D diffusion priors, enabling efficient training and improved generalization to unseen objects. Extensive experiments on both synthetic and in-the-wild datasets demonstrate superior performance in 3D object generation, offering a new approach to high-quality 3D generation.
- Abstract(参考訳): 2次元画像生成の最近の進歩は、拡散モデルのキャパシティと大規模データセットの可用性により、目覚ましい品質を実現している。
しかし、直接3D生成は、3Dデータセットの不足と低忠実さによって制限されている。
本稿では,事前学習した2次元拡散モデルを用いてガウススプラット上で直接一視点生成を行うことにより,この問題に対処する新しい手法であるZero-1-to-Gを提案する。
キーとなる洞察は、3次元表現であるガウススプラッターを、異なる属性を符号化した多視点画像に分解できるということである。
これにより、2D拡散フレームワーク内での直接3D生成の困難なタスクを再構築し、事前訓練された2D拡散モデルのリッチな事前利用を可能にします。
3D認識を取り入れるために,複雑な相関関係を捉え,生成されたスプラット間の3D一貫性を強制する,クロスビュー層とクロスアトリビュートアテンション層を導入する。
これにより、Zero-1-to-Gは、事前訓練された2D拡散前処理を効果的に活用する最初の直接画像から3D生成モデルとなり、効率的なトレーニングと未確認物体への一般化が実現された。
合成データセットとインザワイルドデータセットの両方に対する大規模な実験は、3Dオブジェクト生成において優れたパフォーマンスを示し、高品質な3D生成に対する新しいアプローチを提供する。
関連論文リスト
- DiffSplat: Repurposing Image Diffusion Models for Scalable Gaussian Splat Generation [33.62074896816882]
DiffSplatは,大規模テキスト・画像拡散モデルを用いて3次元ガウススプラットを生成する新しい3次元生成フレームワークである。
従来の3D生成モデルと異なり、Webスケールの2D事前を効果的に活用しつつ、統一モデルにおける3D一貫性を維持している。
これらの格子上の正規拡散損失と合わせて、3Dレンダリング損失を導入し、任意のビューの3Dコヒーレンスを促進する。
論文 参考訳(メタデータ) (2025-01-28T07:38:59Z) - DSplats: 3D Generation by Denoising Splats-Based Multiview Diffusion Models [67.50989119438508]
本稿では,ガウスをベースとしたレコンストラクタを用いて,リアルな3Dアセットを生成することで,マルチビュー画像を直接認識するDSplatを紹介した。
実験の結果,DSplatsは高品質で空間的に一貫した出力を生成できるだけでなく,単一画像から3次元再構成への新たな標準も設定できることがわかった。
論文 参考訳(メタデータ) (2024-12-11T07:32:17Z) - Gen-3Diffusion: Realistic Image-to-3D Generation via 2D & 3D Diffusion Synergy [29.73743772971411]
Gen-3Diffusion: Realistic Image-to-3D Generation via 2D and 3D Diffusion Synergyを提案する。
事前学習した2次元拡散モデルと3次元拡散モデルをエレガントに設計したプロセスを通じて活用する。
提案手法は,高忠実度な形状とテクスチャを持つ現実的な3Dオブジェクトとアバターを生成する。
論文 参考訳(メタデータ) (2024-12-09T17:44:42Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - Text-to-3D Generation with Bidirectional Diffusion using both 2D and 3D
priors [16.93758384693786]
双方向拡散(Bidirectional Diffusion、BiDiff)は、3次元と2次元の拡散プロセスの両方を組み込んだ統合フレームワークである。
我々のモデルは高品質で多種多様でスケーラブルな3D生成を実現する。
論文 参考訳(メタデータ) (2023-12-07T10:00:04Z) - GaussianDreamer: Fast Generation from Text to 3D Gaussians by Bridging 2D and 3D Diffusion Models [102.22388340738536]
2Dおよび3D拡散モデルは、プロンプトに基づいて適切な3Dオブジェクトを生成することができる。
3次元拡散モデルには優れた3次元整合性があるが、トレーニング可能な3次元データは高価で入手が難しいため、その品質と一般化は制限されている。
本稿では,2種類の拡散モデルから近年の明示的かつ効率的な3次元ガウススプラッティング表現を通じて電力を橋渡ししようとする。
論文 参考訳(メタデータ) (2023-10-12T17:22:24Z) - HoloDiffusion: Training a 3D Diffusion Model using 2D Images [71.1144397510333]
我々は,2次元画像のみを監督のために配置した,エンドツーエンドでトレーニング可能な新しい拡散装置を導入する。
我々の拡散モデルはスケーラブルで、頑健に訓練されており、既存の3次元生成モデルへのアプローチに対して、サンプルの品質と忠実さの点で競争力があることを示す。
論文 参考訳(メタデータ) (2023-03-29T07:35:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。