論文の概要: RichDreamer: A Generalizable Normal-Depth Diffusion Model for Detail
Richness in Text-to-3D
- arxiv url: http://arxiv.org/abs/2311.16918v1
- Date: Tue, 28 Nov 2023 16:22:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 17:39:53.749738
- Title: RichDreamer: A Generalizable Normal-Depth Diffusion Model for Detail
Richness in Text-to-3D
- Title(参考訳): richdreamer:テキストから3dへの詳細度のための一般化された正規精細拡散モデル
- Authors: Lingteng Qiu, Guanying Chen, Xiaodong Gu, Qi Zuo, Mutian Xu, Yushuang
Wu, Weihao Yuan, Zilong Dong, Liefeng Bo, Xiaoguang Han
- Abstract要約: 我々は3次元生成のための一般化可能な正規-深度拡散モデルを学ぶ。
アルベド拡散モデルを導入し、アルベド成分にデータ駆動的制約を課す。
実験の結果,既存のテキスト・ツー・3Dパイプラインに組み込むと,モデルのリッチさが著しく向上することがわかった。
- 参考スコア(独自算出の注目度): 31.77212284992657
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Lifting 2D diffusion for 3D generation is a challenging problem due to the
lack of geometric prior and the complex entanglement of materials and lighting
in natural images. Existing methods have shown promise by first creating the
geometry through score-distillation sampling (SDS) applied to rendered surface
normals, followed by appearance modeling. However, relying on a 2D RGB
diffusion model to optimize surface normals is suboptimal due to the
distribution discrepancy between natural images and normals maps, leading to
instability in optimization. In this paper, recognizing that the normal and
depth information effectively describe scene geometry and be automatically
estimated from images, we propose to learn a generalizable Normal-Depth
diffusion model for 3D generation. We achieve this by training on the
large-scale LAION dataset together with the generalizable image-to-depth and
normal prior models. In an attempt to alleviate the mixed illumination effects
in the generated materials, we introduce an albedo diffusion model to impose
data-driven constraints on the albedo component. Our experiments show that when
integrated into existing text-to-3D pipelines, our models significantly enhance
the detail richness, achieving state-of-the-art results. Our project page is
https://lingtengqiu.github.io/RichDreamer/.
- Abstract(参考訳): 3次元生成のためのリフティング2次元拡散は、幾何学的事前の欠如と、自然画像における材料と照明の複雑な絡み合いのために難しい問題である。
既存の手法では, 表面標準値に印加したスコア蒸留サンプリング(SDS)を用いて, まず幾何学を創出し, 外観のモデリングを行った。
しかし,2次元RGB拡散モデルを用いて表面の正規分布を最適化することは,自然画像と正規分布マップの分布の相違により,最適化の不安定性をもたらす。
本稿では,シーン形状を効果的に記述し,画像から自動的に推定することを認識し,3次元生成のための一般化された正規深度拡散モデルを提案する。
我々は、大規模LAIONデータセットと、一般化可能な画像深度モデルと通常の事前モデルとの併用により、これを実現する。
生成材料の混合照明効果を緩和する試みとして,アルベド成分にデータ駆動制約を課すためのアルベド拡散モデルを提案する。
実験の結果,既存のテキスト・ツー・3Dパイプラインに組み込むと,モデルの精度が向上し,最先端の結果が得られることがわかった。
プロジェクトページはhttps://lingtengqiu.github.io/richdreamer/。
関連論文リスト
- Zero-1-to-G: Taming Pretrained 2D Diffusion Model for Direct 3D Generation [66.75243908044538]
我々は,事前学習した2次元拡散モデルを用いたガウススプラット上での3次元直接生成手法であるZero-1-to-Gを導入する。
3D認識を取り入れるために,複雑な相関関係を捉え,生成されたスプラット間の3D一貫性を強制する,クロスビュー層とクロスアトリビュートアテンション層を導入する。
これにより、Zero-1-to-Gは、事前訓練された2D拡散前処理を効果的に活用する最初の直接画像から3D生成モデルとなり、効率的なトレーニングと未確認物体への一般化が実現された。
論文 参考訳(メタデータ) (2025-01-09T18:37:35Z) - DSplats: 3D Generation by Denoising Splats-Based Multiview Diffusion Models [67.50989119438508]
本稿では,ガウスをベースとしたレコンストラクタを用いて,リアルな3Dアセットを生成することで,マルチビュー画像を直接認識するDSplatを紹介した。
実験の結果,DSplatsは高品質で空間的に一貫した出力を生成できるだけでなく,単一画像から3次元再構成への新たな標準も設定できることがわかった。
論文 参考訳(メタデータ) (2024-12-11T07:32:17Z) - Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。
3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。
本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文 参考訳(メタデータ) (2024-10-12T10:14:11Z) - GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction [52.04103235260539]
単一視点からの3次元オブジェクト再構成のためのガウススプティング表現に基づく拡散モデル手法を提案する。
モデルはGS楕円体の集合で表される3Dオブジェクトを生成することを学習する。
最終的な再構成されたオブジェクトは、高品質な3D構造とテクスチャを持ち、任意のビューで効率的にレンダリングできる。
論文 参考訳(メタデータ) (2024-07-05T03:43:08Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - Unique3D: High-Quality and Efficient 3D Mesh Generation from a Single Image [28.759158325097093]
Unique3Dは、シングルビュー画像から高品質な3Dメッシュを効率的に生成するための、新しい画像間3Dフレームワークである。
我々のフレームワークは、最先端世代の忠実さと強力な一般化性を備えている。
論文 参考訳(メタデータ) (2024-05-30T17:59:54Z) - CAD: Photorealistic 3D Generation via Adversarial Distillation [28.07049413820128]
本稿では,事前学習した拡散モデルを用いた3次元合成のための新しい学習パラダイムを提案する。
提案手法は,1つの画像に条件付された高忠実かつ光リアルな3Dコンテンツの生成を解放し,プロンプトを行う。
論文 参考訳(メタデータ) (2023-12-11T18:59:58Z) - DreamFusion: Text-to-3D using 2D Diffusion [52.52529213936283]
テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。
本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。
提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-09-29T17:50:40Z) - GAN2X: Non-Lambertian Inverse Rendering of Image GANs [85.76426471872855]
GAN2Xは、教師なし画像のみをトレーニングに使用する、教師なし逆レンダリングの新しい手法である。
3次元形状を主眼とする従来のShape-from-GANアプローチとは異なり、GANが生成した擬似ペアデータを利用して、非ランベルト材料特性を復元する試みは初めてである。
実験により, GAN2Xは2次元画像を3次元形状, アルベド, 特異な特性に正確に分解し, 教師なしの単視3次元顔再構成の最先端性能を実現することができた。
論文 参考訳(メタデータ) (2022-06-18T16:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。