論文の概要: Gen-3Diffusion: Realistic Image-to-3D Generation via 2D & 3D Diffusion Synergy
- arxiv url: http://arxiv.org/abs/2412.06698v1
- Date: Mon, 09 Dec 2024 17:44:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:54:20.776765
- Title: Gen-3Diffusion: Realistic Image-to-3D Generation via 2D & 3D Diffusion Synergy
- Title(参考訳): Gen-3D-Diffusion:2次元および3次元拡散相乗効果によるリアルな画像から3次元生成
- Authors: Yuxuan Xue, Xianghui Xie, Riccardo Marin, Gerard Pons-Moll,
- Abstract要約: Gen-3Diffusion: Realistic Image-to-3D Generation via 2D and 3D Diffusion Synergyを提案する。
事前学習した2次元拡散モデルと3次元拡散モデルをエレガントに設計したプロセスを通じて活用する。
提案手法は,高忠実度な形状とテクスチャを持つ現実的な3Dオブジェクトとアバターを生成する。
- 参考スコア(独自算出の注目度): 29.73743772971411
- License:
- Abstract: Creating realistic 3D objects and clothed avatars from a single RGB image is an attractive yet challenging problem. Due to its ill-posed nature, recent works leverage powerful prior from 2D diffusion models pretrained on large datasets. Although 2D diffusion models demonstrate strong generalization capability, they cannot guarantee the generated multi-view images are 3D consistent. In this paper, we propose Gen-3Diffusion: Realistic Image-to-3D Generation via 2D & 3D Diffusion Synergy. We leverage a pre-trained 2D diffusion model and a 3D diffusion model via our elegantly designed process that synchronizes two diffusion models at both training and sampling time. The synergy between the 2D and 3D diffusion models brings two major advantages: 1) 2D helps 3D in generalization: the pretrained 2D model has strong generalization ability to unseen images, providing strong shape priors for the 3D diffusion model; 2) 3D helps 2D in multi-view consistency: the 3D diffusion model enhances the 3D consistency of 2D multi-view sampling process, resulting in more accurate multi-view generation. We validate our idea through extensive experiments in image-based objects and clothed avatar generation tasks. Results show that our method generates realistic 3D objects and avatars with high-fidelity geometry and texture. Extensive ablations also validate our design choices and demonstrate the strong generalization ability to diverse clothing and compositional shapes. Our code and pretrained models will be publicly released on https://yuxuan-xue.com/gen-3diffusion.
- Abstract(参考訳): リアルな3Dオブジェクトと1枚のRGB画像からアバターを作るのは、魅力的だが難しい問題だ。
その不適切な性質のため、最近の研究は、大規模なデータセットで事前訓練された2次元拡散モデルから強力に事前に活用されている。
2次元拡散モデルは強力な一般化能力を示すが、生成した多視点画像が3次元一貫したことを保証できない。
本稿では,Gen-3Diffusion: Realistic Image-to-3D Generation via 2D & 3D Diffusion Synergyを提案する。
事前学習した2次元拡散モデルと3次元拡散モデルを、訓練時間とサンプリング時間の両方で2つの拡散モデルを同期させるエレガントに設計されたプロセスを介して活用する。
2Dと3D拡散モデルの相乗効果には2つの大きな利点がある。
1) 2Dは3Dの一般化に役立ち、事前訓練された2Dモデルは画像が見えないように強力な一般化能力を持ち、3D拡散モデルに強力な形状の先行を与える。
2) 3次元拡散モデルにより, 2次元多視点サンプリングプロセスの3次元一貫性が向上し, より正確な多視点生成が可能となる。
我々は,画像ベースオブジェクトとアバター生成タスクの広範な実験を通じて,このアイデアを検証した。
その結果,本手法は高忠実度な形状とテクスチャを持つ現実的な3次元オブジェクトやアバターを生成できることが示唆された。
また、多彩な衣服や構成形態への強力な一般化能力を示すとともに、我々のデザイン選択を検証している。
私たちのコードと事前訓練されたモデルはhttps://yuxuan-xue.com/gen-3diffusion.comで公開されます。
関連論文リスト
- Human 3Diffusion: Realistic Avatar Creation via Explicit 3D Consistent Diffusion Models [29.73743772971411]
人間の3次元拡散: 明示的な3次元連続拡散による現実的なアバター創造を提案する。
我々の重要な洞察は、2次元多視点拡散と3次元再構成モデルが相互に補完情報を提供するということである。
提案するフレームワークは,最先端の手法より優れ,単一のRGB画像から現実的なアバターを作成することができる。
論文 参考訳(メタデータ) (2024-06-12T17:57:25Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D
Prior [52.44678180286886]
2次元拡散モデルでは、3次元データなしで優れた一般化と豊富な詳細を実現する蒸留手法が見つかる。
提案するSherpa3Dは,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3Dフレームワークである。
論文 参考訳(メタデータ) (2023-12-11T18:59:18Z) - GaussianDreamer: Fast Generation from Text to 3D Gaussians by Bridging 2D and 3D Diffusion Models [102.22388340738536]
2Dおよび3D拡散モデルは、プロンプトに基づいて適切な3Dオブジェクトを生成することができる。
3次元拡散モデルには優れた3次元整合性があるが、トレーニング可能な3次元データは高価で入手が難しいため、その品質と一般化は制限されている。
本稿では,2種類の拡散モデルから近年の明示的かつ効率的な3次元ガウススプラッティング表現を通じて電力を橋渡ししようとする。
論文 参考訳(メタデータ) (2023-10-12T17:22:24Z) - MVDream: Multi-view Diffusion for 3D Generation [14.106283556521962]
本稿では,テキストプロンプトから一貫した多視点画像を生成可能な拡散モデルMVDreamを紹介する。
2次元データと3次元データの両方から学習すると、多視点拡散モデルは2次元拡散モデルの一般化可能性と3次元レンダリングの整合性を達成することができる。
論文 参考訳(メタデータ) (2023-08-31T07:49:06Z) - AG3D: Learning to Generate 3D Avatars from 2D Image Collections [96.28021214088746]
本稿では,2次元画像から現実的な3次元人物の新たな逆生成モデルを提案する。
本手法は, 全身型3Dジェネレータを用いて, 体の形状と変形を捉える。
提案手法は, 従来の3次元・調音認識手法よりも幾何的, 外観的に優れていた。
論文 参考訳(メタデータ) (2023-05-03T17:56:24Z) - HoloDiffusion: Training a 3D Diffusion Model using 2D Images [71.1144397510333]
我々は,2次元画像のみを監督のために配置した,エンドツーエンドでトレーニング可能な新しい拡散装置を導入する。
我々の拡散モデルはスケーラブルで、頑健に訓練されており、既存の3次元生成モデルへのアプローチに対して、サンプルの品質と忠実さの点で競争力があることを示す。
論文 参考訳(メタデータ) (2023-03-29T07:35:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。