論文の概要: DreamFusion: Text-to-3D using 2D Diffusion
- arxiv url: http://arxiv.org/abs/2209.14988v1
- Date: Thu, 29 Sep 2022 17:50:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 15:59:47.062075
- Title: DreamFusion: Text-to-3D using 2D Diffusion
- Title(参考訳): DreamFusion: 2次元拡散を用いたテキストから3D
- Authors: Ben Poole, Ajay Jain, Jonathan T. Barron, Ben Mildenhall
- Abstract要約: テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。
本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。
提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
- 参考スコア(独自算出の注目度): 52.52529213936283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent breakthroughs in text-to-image synthesis have been driven by diffusion
models trained on billions of image-text pairs. Adapting this approach to 3D
synthesis would require large-scale datasets of labeled 3D data and efficient
architectures for denoising 3D data, neither of which currently exist. In this
work, we circumvent these limitations by using a pretrained 2D text-to-image
diffusion model to perform text-to-3D synthesis. We introduce a loss based on
probability density distillation that enables the use of a 2D diffusion model
as a prior for optimization of a parametric image generator. Using this loss in
a DeepDream-like procedure, we optimize a randomly-initialized 3D model (a
Neural Radiance Field, or NeRF) via gradient descent such that its 2D
renderings from random angles achieve a low loss. The resulting 3D model of the
given text can be viewed from any angle, relit by arbitrary illumination, or
composited into any 3D environment. Our approach requires no 3D training data
and no modifications to the image diffusion model, demonstrating the
effectiveness of pretrained image diffusion models as priors.
- Abstract(参考訳): テキスト-画像合成の最近の進歩は、何十億もの画像-テキストペアで訓練された拡散モデルによって推進されている。
このアプローチを3D合成に適用するには、ラベル付き3Dデータの大規模なデータセットと、3Dデータを識別するための効率的なアーキテクチャが必要です。
本研究では,事前学習した2次元テキストから画像への拡散モデルを用いて,テキストから3次元への合成を行うことにより,これらの制約を回避する。
本稿では,パラメトリック画像生成器の最適化に2次元拡散モデルを用いることが可能な,確率密度蒸留に基づく損失を導入する。
この損失をDeepDreamライクな手法を用いて、ランダムに初期化した3Dモデル(ニューラルレージアンスフィールドまたはNeRF)を勾配降下により最適化し、ランダムな角度からの2Dレンダリングで低損失を得る。
得られたテキストの3dモデルは任意の角度から見ることができ、任意の照明でリライトしたり、任意の3d環境に合成することができる。
提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を示す。
関連論文リスト
- Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。
3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。
本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文 参考訳(メタデータ) (2024-10-12T10:14:11Z) - GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction [52.04103235260539]
単一視点からの3次元オブジェクト再構成のためのガウススプティング表現に基づく拡散モデル手法を提案する。
モデルはGS楕円体の集合で表される3Dオブジェクトを生成することを学習する。
最終的な再構成されたオブジェクトは、高品質な3D構造とテクスチャを持ち、任意のビューで効率的にレンダリングできる。
論文 参考訳(メタデータ) (2024-07-05T03:43:08Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - Isotropic3D: Image-to-3D Generation Based on a Single CLIP Embedding [16.50466940644004]
入力としてCLIPを埋め込んだ画像のみを取り込む画像から3D生成パイプラインであるIsotropic3Dを提案する。
等方性3Dは、最適化をSDS損失のみを静止させることで、方位角の等方性w.r.t.にすることができる。
論文 参考訳(メタデータ) (2024-03-15T15:27:58Z) - 3DTopia: Large Text-to-3D Generation Model with Hybrid Diffusion Priors [85.11117452560882]
本稿では,2段階のテキスト・ツー・3D生成システムである3DTopiaについて述べる。
3次元データから直接学習される3次元拡散の第1段階のサンプルは、テキスト条件付き3次元潜伏拡散モデルを用いており、高速なプロトタイピングのための粗い3次元サンプルを迅速に生成する。
第2段階は2次元拡散前処理を利用して、粗い3次元モデルのテクスチャを第1段階からさらに洗練し、高品質なテクスチャ生成のための潜時空間と画素空間の最適化からなる。
論文 参考訳(メタデータ) (2024-03-04T17:26:28Z) - GaussianDreamer: Fast Generation from Text to 3D Gaussians by Bridging 2D and 3D Diffusion Models [102.22388340738536]
2Dおよび3D拡散モデルは、プロンプトに基づいて適切な3Dオブジェクトを生成することができる。
3次元拡散モデルには優れた3次元整合性があるが、トレーニング可能な3次元データは高価で入手が難しいため、その品質と一般化は制限されている。
本稿では,2種類の拡散モデルから近年の明示的かつ効率的な3次元ガウススプラッティング表現を通じて電力を橋渡ししようとする。
論文 参考訳(メタデータ) (2023-10-12T17:22:24Z) - Let 2D Diffusion Model Know 3D-Consistency for Robust Text-to-3D
Generation [39.50894560861625]
3DFuseは、事前訓練された2D拡散モデルに3D認識を組み込む新しいフレームワークである。
本研究では,2次元拡散モデルを用いて,粗い3次元構造内の誤差や空間の分散を学習し,ロバストな生成を可能にするトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T14:24:31Z) - A Shading-Guided Generative Implicit Model for Shape-Accurate 3D-Aware
Image Synthesis [163.96778522283967]
そこで本研究では,シェーディング誘導型生成暗黙モデルを提案する。
正確な3D形状は、異なる照明条件下でリアルなレンダリングをもたらす必要がある。
複数のデータセットに対する実験により,提案手法が光リアルな3次元画像合成を実現することを示す。
論文 参考訳(メタデータ) (2021-10-29T10:53:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。