Fugu-MT 論文翻訳(概要): DreamFusion: Text-to-3D using 2D Diffusion

論文の概要: DreamFusion: Text-to-3D using 2D Diffusion

arxiv url: http://arxiv.org/abs/2209.14988v1
Date: Thu, 29 Sep 2022 17:50:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-30 15:59:47.062075
Title: DreamFusion: Text-to-3D using 2D Diffusion
Title（参考訳）: DreamFusion: 2次元拡散を用いたテキストから3D
Authors: Ben Poole, Ajay Jain, Jonathan T. Barron, Ben Mildenhall
Abstract要約: テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
参考スコア（独自算出の注目度）: 52.52529213936283
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent breakthroughs in text-to-image synthesis have been driven by diffusion models trained on billions of image-text pairs. Adapting this approach to 3D synthesis would require large-scale datasets of labeled 3D data and efficient architectures for denoising 3D data, neither of which currently exist. In this work, we circumvent these limitations by using a pretrained 2D text-to-image diffusion model to perform text-to-3D synthesis. We introduce a loss based on probability density distillation that enables the use of a 2D diffusion model as a prior for optimization of a parametric image generator. Using this loss in a DeepDream-like procedure, we optimize a randomly-initialized 3D model (a Neural Radiance Field, or NeRF) via gradient descent such that its 2D renderings from random angles achieve a low loss. The resulting 3D model of the given text can be viewed from any angle, relit by arbitrary illumination, or composited into any 3D environment. Our approach requires no 3D training data and no modifications to the image diffusion model, demonstrating the effectiveness of pretrained image diffusion models as priors.
Abstract（参考訳）: テキスト-画像合成の最近の進歩は、何十億もの画像-テキストペアで訓練された拡散モデルによって推進されている。このアプローチを3D合成に適用するには、ラベル付き3Dデータの大規模なデータセットと、3Dデータを識別するための効率的なアーキテクチャが必要です。本研究では,事前学習した2次元テキストから画像への拡散モデルを用いて,テキストから3次元への合成を行うことにより,これらの制約を回避する。本稿では,パラメトリック画像生成器の最適化に2次元拡散モデルを用いることが可能な,確率密度蒸留に基づく損失を導入する。この損失をDeepDreamライクな手法を用いて、ランダムに初期化した3Dモデル(ニューラルレージアンスフィールドまたはNeRF)を勾配降下により最適化し、ランダムな角度からの2Dレンダリングで低損失を得る。得られたテキストの3dモデルは任意の角度から見ることができ、任意の照明でリライトしたり、任意の3d環境に合成することができる。提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を示す。

関連論文リスト

Repurposing 2D Diffusion Models with Gaussian Atlas for 3D Generation [30.418733980714915]
本研究では,高密度な2次元格子を用いた新しい表現を導入し,2次元拡散モデルの微調整により3次元ガウスモデルを生成する。実験結果から,テキスト・画像拡散モデルが3次元コンテンツ生成に効果的に適応できることが示唆された。
論文参考訳（メタデータ） (2025-03-20T05:59:41Z)
DiffSplat: Repurposing Image Diffusion Models for Scalable Gaussian Splat Generation [33.62074896816882]
DiffSplatは,大規模テキスト・画像拡散モデルを用いて3次元ガウススプラットを生成する新しい3次元生成フレームワークである。従来の3D生成モデルと異なり、Webスケールの2D事前を効果的に活用しつつ、統一モデルにおける3D一貫性を維持している。これらの格子上の正規拡散損失と合わせて、3Dレンダリング損失を導入し、任意のビューの3Dコヒーレンスを促進する。
論文参考訳（メタデータ） (2025-01-28T07:38:59Z)
Zero-1-to-G: Taming Pretrained 2D Diffusion Model for Direct 3D Generation [66.75243908044538]
我々は,事前学習した2次元拡散モデルを用いたガウススプラット上での3次元直接生成手法であるZero-1-to-Gを導入する。 3D認識を取り入れるために,複雑な相関関係を捉え,生成されたスプラット間の3D一貫性を強制する,クロスビュー層とクロスアトリビュートアテンション層を導入する。これにより、Zero-1-to-Gは、事前訓練された2D拡散前処理を効果的に活用する最初の直接画像から3D生成モデルとなり、効率的なトレーニングと未確認物体への一般化が実現された。
論文参考訳（メタデータ） (2025-01-09T18:37:35Z)
Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。 3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文参考訳（メタデータ） (2024-10-12T10:14:11Z)
GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction [52.04103235260539]
単一視点からの3次元オブジェクト再構成のためのガウススプティング表現に基づく拡散モデル手法を提案する。モデルはGS楕円体の集合で表される3Dオブジェクトを生成することを学習する。最終的な再構成されたオブジェクトは、高品質な3D構造とテクスチャを持ち、任意のビューで効率的にレンダリングできる。
論文参考訳（メタデータ） (2024-07-05T03:43:08Z)
DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文参考訳（メタデータ） (2024-06-06T17:58:15Z)
Isotropic3D: Image-to-3D Generation Based on a Single CLIP Embedding [16.50466940644004]
入力としてCLIPを埋め込んだ画像のみを取り込む画像から3D生成パイプラインであるIsotropic3Dを提案する。等方性3Dは、最適化をSDS損失のみを静止させることで、方位角の等方性w.r.t.にすることができる。
論文参考訳（メタデータ） (2024-03-15T15:27:58Z)
3DTopia: Large Text-to-3D Generation Model with Hybrid Diffusion Priors [85.11117452560882]
本稿では,2段階のテキスト・ツー・3D生成システムである3DTopiaについて述べる。 3次元データから直接学習される3次元拡散の第1段階のサンプルは、テキスト条件付き3次元潜伏拡散モデルを用いており、高速なプロトタイピングのための粗い3次元サンプルを迅速に生成する。第2段階は2次元拡散前処理を利用して、粗い3次元モデルのテクスチャを第1段階からさらに洗練し、高品質なテクスチャ生成のための潜時空間と画素空間の最適化からなる。
論文参考訳（メタデータ） (2024-03-04T17:26:28Z)
GaussianDreamer: Fast Generation from Text to 3D Gaussians by Bridging 2D and 3D Diffusion Models [102.22388340738536]
2Dおよび3D拡散モデルは、プロンプトに基づいて適切な3Dオブジェクトを生成することができる。 3次元拡散モデルには優れた3次元整合性があるが、トレーニング可能な3次元データは高価で入手が難しいため、その品質と一般化は制限されている。本稿では,2種類の拡散モデルから近年の明示的かつ効率的な3次元ガウススプラッティング表現を通じて電力を橋渡ししようとする。
論文参考訳（メタデータ） (2023-10-12T17:22:24Z)
Let 2D Diffusion Model Know 3D-Consistency for Robust Text-to-3D Generation [39.50894560861625]
3DFuseは、事前訓練された2D拡散モデルに3D認識を組み込む新しいフレームワークである。本研究では,2次元拡散モデルを用いて,粗い3次元構造内の誤差や空間の分散を学習し,ロバストな生成を可能にするトレーニング戦略を提案する。
論文参考訳（メタデータ） (2023-03-14T14:24:31Z)
A Shading-Guided Generative Implicit Model for Shape-Accurate 3D-Aware Image Synthesis [163.96778522283967]
そこで本研究では,シェーディング誘導型生成暗黙モデルを提案する。正確な3D形状は、異なる照明条件下でリアルなレンダリングをもたらす必要がある。複数のデータセットに対する実験により,提案手法が光リアルな3次元画像合成を実現することを示す。
論文参考訳（メタデータ） (2021-10-29T10:53:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。