論文の概要: DreamFusion: Text-to-3D using 2D Diffusion
- arxiv url: http://arxiv.org/abs/2209.14988v1
- Date: Thu, 29 Sep 2022 17:50:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 15:59:47.062075
- Title: DreamFusion: Text-to-3D using 2D Diffusion
- Title(参考訳): DreamFusion: 2次元拡散を用いたテキストから3D
- Authors: Ben Poole, Ajay Jain, Jonathan T. Barron, Ben Mildenhall
- Abstract要約: テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。
本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。
提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
- 参考スコア(独自算出の注目度): 52.52529213936283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent breakthroughs in text-to-image synthesis have been driven by diffusion
models trained on billions of image-text pairs. Adapting this approach to 3D
synthesis would require large-scale datasets of labeled 3D data and efficient
architectures for denoising 3D data, neither of which currently exist. In this
work, we circumvent these limitations by using a pretrained 2D text-to-image
diffusion model to perform text-to-3D synthesis. We introduce a loss based on
probability density distillation that enables the use of a 2D diffusion model
as a prior for optimization of a parametric image generator. Using this loss in
a DeepDream-like procedure, we optimize a randomly-initialized 3D model (a
Neural Radiance Field, or NeRF) via gradient descent such that its 2D
renderings from random angles achieve a low loss. The resulting 3D model of the
given text can be viewed from any angle, relit by arbitrary illumination, or
composited into any 3D environment. Our approach requires no 3D training data
and no modifications to the image diffusion model, demonstrating the
effectiveness of pretrained image diffusion models as priors.
- Abstract(参考訳): テキスト-画像合成の最近の進歩は、何十億もの画像-テキストペアで訓練された拡散モデルによって推進されている。
このアプローチを3D合成に適用するには、ラベル付き3Dデータの大規模なデータセットと、3Dデータを識別するための効率的なアーキテクチャが必要です。
本研究では,事前学習した2次元テキストから画像への拡散モデルを用いて,テキストから3次元への合成を行うことにより,これらの制約を回避する。
本稿では,パラメトリック画像生成器の最適化に2次元拡散モデルを用いることが可能な,確率密度蒸留に基づく損失を導入する。
この損失をDeepDreamライクな手法を用いて、ランダムに初期化した3Dモデル(ニューラルレージアンスフィールドまたはNeRF)を勾配降下により最適化し、ランダムな角度からの2Dレンダリングで低損失を得る。
得られたテキストの3dモデルは任意の角度から見ることができ、任意の照明でリライトしたり、任意の3d環境に合成することができる。
提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を示す。
関連論文リスト
- 3DTopia: Large Text-to-3D Generation Model with Hybrid Diffusion Priors [86.31822685078642]
本稿では,2段階のテキスト・ツー・3D生成システムである3DTopiaについて述べる。
3次元データから直接学習される3次元拡散の第1段階のサンプルは、テキスト条件付き3次元潜伏拡散モデルを用いており、高速なプロトタイピングのための粗い3次元サンプルを迅速に生成する。
第2段階は2次元拡散前処理を利用して、粗い3次元モデルのテクスチャを第1段階からさらに洗練し、高品質なテクスチャ生成のための潜時空間と画素空間の最適化からなる。
論文 参考訳(メタデータ) (2024-03-04T17:26:28Z) - PI3D: Efficient Text-to-3D Generation with Pseudo-Image Diffusion [19.951329726916654]
PI3Dは、事前訓練されたテキスト-画像拡散モデルを用いて、高品質な3D形状を数分で生成する新しいフレームワークである。
事前学習した2次元拡散モデルを3次元拡散モデルに微調整し、3次元生成能力と2次元モデルから派生した一般化の両方を可能にする。
2次元拡散モデルのスコア蒸留サンプリングを利用して、サンプリングした3次元形状の品質を迅速に向上する。
論文 参考訳(メタデータ) (2023-12-14T16:04:34Z) - Text-to-3D Generation with Bidirectional Diffusion using both 2D and 3D
priors [16.93758384693786]
双方向拡散(Bidirectional Diffusion、BiDiff)は、3次元と2次元の拡散プロセスの両方を組み込んだ統合フレームワークである。
我々のモデルは高品質で多種多様でスケーラブルな3D生成を実現する。
論文 参考訳(メタデータ) (2023-12-07T10:00:04Z) - TexFusion: Synthesizing 3D Textures with Text-Guided Image Diffusion
Models [77.85129451435704]
大規模誘導画像拡散モデルを用いて3次元テクスチャを合成する手法を提案する。
具体的には、潜時拡散モデルを利用し、セット・デノナイジング・モデルと集合・デノナイジング・テキスト・マップを適用する。
論文 参考訳(メタデータ) (2023-10-20T19:15:29Z) - GaussianDreamer: Fast Generation from Text to 3D Gaussians by Bridging
2D and 3D Diffusion Models [106.06810278075223]
2Dおよび3D拡散モデルは、プロンプトに基づいて適切な3Dオブジェクトを生成することができる。
3次元拡散モデルには優れた3次元整合性があるが、トレーニング可能な3次元データは高価で入手が難しいため、その品質と一般化は制限されている。
本稿では,2種類の拡散モデルから近年の明示的かつ効率的な3次元ガウススプラッティング表現を通じて電力を橋渡ししようとする。
論文 参考訳(メタデータ) (2023-10-12T17:22:24Z) - ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image
Collections [71.46546520120162]
単眼画像から動物体のような3D関節形状を推定することは、本質的に困難である。
本稿では,スパース画像コレクションから各物体の形状を再構築する自己教師型フレームワークARTIC3Dを提案する。
我々は、剛性部分変換の下で、描画された形状とテクスチャを微調整することで、現実的なアニメーションを作成する。
論文 参考訳(メタデータ) (2023-06-07T17:47:50Z) - Let 2D Diffusion Model Know 3D-Consistency for Robust Text-to-3D
Generation [39.50894560861625]
3DFuseは、事前訓練された2D拡散モデルに3D認識を組み込む新しいフレームワークである。
本研究では,2次元拡散モデルを用いて,粗い3次元構造内の誤差や空間の分散を学習し,ロバストな生成を可能にするトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T14:24:31Z) - A Shading-Guided Generative Implicit Model for Shape-Accurate 3D-Aware
Image Synthesis [163.96778522283967]
そこで本研究では,シェーディング誘導型生成暗黙モデルを提案する。
正確な3D形状は、異なる照明条件下でリアルなレンダリングをもたらす必要がある。
複数のデータセットに対する実験により,提案手法が光リアルな3次元画像合成を実現することを示す。
論文 参考訳(メタデータ) (2021-10-29T10:53:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。