論文の概要: Diffusion Time-step Curriculum for One Image to 3D Generation
- arxiv url: http://arxiv.org/abs/2404.04562v3
- Date: Fri, 3 May 2024 01:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 17:18:04.065692
- Title: Diffusion Time-step Curriculum for One Image to 3D Generation
- Title(参考訳): 1次元画像から3次元画像への拡散時間計算
- Authors: Xuanyu Yi, Zike Wu, Qingshan Xu, Pan Zhou, Joo-Hwee Lim, Hanwang Zhang,
- Abstract要約: テキストバッフル画像から3Dオブジェクトを再構成する際の見知らぬ視点の欠如を克服するために,スコア蒸留サンプリング(SDS)が広く採用されている。
最適化中の拡散時間ステップの無差別な処理方法として,クルックスが見過ごされていることが判明した。
本稿では,教師モデルと学生モデルの両方が,時間段階のカリキュラムと密接な連携を図ったDiffusion Time-step Curriculum One-image-to-3D Pipeline (DTC123)を提案する。
- 参考スコア(独自算出の注目度): 91.07638345953016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Score distillation sampling~(SDS) has been widely adopted to overcome the absence of unseen views in reconstructing 3D objects from a \textbf{single} image. It leverages pre-trained 2D diffusion models as teacher to guide the reconstruction of student 3D models. Despite their remarkable success, SDS-based methods often encounter geometric artifacts and texture saturation. We find out the crux is the overlooked indiscriminate treatment of diffusion time-steps during optimization: it unreasonably treats the student-teacher knowledge distillation to be equal at all time-steps and thus entangles coarse-grained and fine-grained modeling. Therefore, we propose the Diffusion Time-step Curriculum one-image-to-3D pipeline (DTC123), which involves both the teacher and student models collaborating with the time-step curriculum in a coarse-to-fine manner. Extensive experiments on NeRF4, RealFusion15, GSO and Level50 benchmark demonstrate that DTC123 can produce multi-view consistent, high-quality, and diverse 3D assets. Codes and more generation demos will be released in https://github.com/yxymessi/DTC123.
- Abstract(参考訳): スコア蒸留サンプリング~(SDS)は, textbf{single}画像から3Dオブジェクトを再構成する際, 目に見えない視点の欠如を克服するために広く採用されている。
教師として事前訓練された2D拡散モデルを利用して、学生の3Dモデルの再構築を指導する。
彼らの顕著な成功にもかかわらず、SDSベースの手法は、しばしば幾何学的アーティファクトやテクスチャ飽和に遭遇する。
学習者の知識蒸留をあらゆる時間ステップで等しく扱い、粗くきめ細かなモデリングを行う。
そこで本稿では,教師モデルと学生モデルの両方が,時間段階のカリキュラムと密接な連携を図ったDiffusion Time-step Curriculum One-image-to-3D Pipeline(DTC123)を提案する。
NeRF4、RealFusion15、GSO、Level50ベンチマークの大規模な実験により、DTC123は多視点一貫した高品質で多様な3Dアセットを生成できることが示された。
コードやその他の世代のデモはhttps://github.com/yxymessi/DTC123.comで公開される。
関連論文リスト
- Baking Gaussian Splatting into Diffusion Denoiser for Fast and Scalable Single-stage Image-to-3D Generation [45.95218923564575]
単一視点からのオブジェクトおよびシーン生成のための新しい1段3次元拡散モデルDiffusionGSを提案する。
実験の結果,PSNRでは2.20dB,FIDでは23.25dB,SOTA法では5倍以上の速度(A100 GPUでは6s)が得られた。
論文 参考訳(メタデータ) (2024-11-21T18:21:24Z) - GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction [52.04103235260539]
単一視点からの3次元オブジェクト再構成のためのガウススプティング表現に基づく拡散モデル手法を提案する。
モデルはGS楕円体の集合で表される3Dオブジェクトを生成することを学習する。
最終的な再構成されたオブジェクトは、高品質な3D構造とテクスチャを持ち、任意のビューで効率的にレンダリングできる。
論文 参考訳(メタデータ) (2024-07-05T03:43:08Z) - Improved Distribution Matching Distillation for Fast Image Synthesis [54.72356560597428]
この制限を解除し、MDDトレーニングを改善する一連の技術であるMDD2を紹介する。
まず、回帰損失と高価なデータセット構築の必要性を排除します。
第2に, GAN損失を蒸留工程に統合し, 生成した試料と実画像との識別を行う。
論文 参考訳(メタデータ) (2024-05-23T17:59:49Z) - Isotropic3D: Image-to-3D Generation Based on a Single CLIP Embedding [16.50466940644004]
入力としてCLIPを埋め込んだ画像のみを取り込む画像から3D生成パイプラインであるIsotropic3Dを提案する。
等方性3Dは、最適化をSDS損失のみを静止させることで、方位角の等方性w.r.t.にすることができる。
論文 参考訳(メタデータ) (2024-03-15T15:27:58Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - Sparse3D: Distilling Multiview-Consistent Diffusion for Object
Reconstruction from Sparse Views [47.215089338101066]
スパースビュー入力に適した新しい3D再構成手法であるスパース3Dを提案する。
提案手法は,多視点拡散モデルから頑健な先行情報を抽出し,ニューラルラディアンス場を改良する。
強力な画像拡散モデルから2Dプリエントをタップすることで、我々の統合モデルは、常に高品質な結果をもたらす。
論文 参考訳(メタデータ) (2023-08-27T11:52:00Z) - ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with
Variational Score Distillation [48.59711140119368]
テキスト・ツー・3D 生成における問題の説明と対処を目的として, 変分スコア蒸留法 (VSD) を提案する。
ProlificDreamerと呼ばれる我々の全体的なアプローチは、高解像度(512times512$)と、リッチな構造と複雑な効果を持つ高忠実なNeRFを生成することができる。
論文 参考訳(メタデータ) (2023-05-25T16:19:18Z) - HoloDiffusion: Training a 3D Diffusion Model using 2D Images [71.1144397510333]
我々は,2次元画像のみを監督のために配置した,エンドツーエンドでトレーニング可能な新しい拡散装置を導入する。
我々の拡散モデルはスケーラブルで、頑健に訓練されており、既存の3次元生成モデルへのアプローチに対して、サンプルの品質と忠実さの点で競争力があることを示す。
論文 参考訳(メタデータ) (2023-03-29T07:35:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。