Fugu-MT 論文翻訳(概要): Pyramid Diffusion for Fine 3D Large Scene Generation

論文の概要: Pyramid Diffusion for Fine 3D Large Scene Generation

arxiv url: http://arxiv.org/abs/2311.12085v2
Date: Thu, 18 Jul 2024 16:04:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-19 22:00:54.988070
Title: Pyramid Diffusion for Fine 3D Large Scene Generation
Title（参考訳）: 微粒な3次元シーン生成のためのピラミッド拡散
Authors: Yuheng Liu, Xinke Li, Xueting Li, Lu Qi, Chongshou Li, Ming-Hsuan Yang,
Abstract要約: 拡散モデルは2次元画像と小型3次元オブジェクトの生成において顕著な結果を示した。大規模な3Dシーンの合成への応用はめったに研究されていない。本稿では,大規模拡散モデルを用いて,高品質な屋外シーンを段階的に生成するフレームワークであるPraamid Discrete Diffusion Model (PDD)を紹介する。
参考スコア（独自算出の注目度）: 56.00726092690535
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models have shown remarkable results in generating 2D images and small-scale 3D objects. However, their application to the synthesis of large-scale 3D scenes has been rarely explored. This is mainly due to the inherent complexity and bulky size of 3D scenery data, particularly outdoor scenes, and the limited availability of comprehensive real-world datasets, which makes training a stable scene diffusion model challenging. In this work, we explore how to effectively generate large-scale 3D scenes using the coarse-to-fine paradigm. We introduce a framework, the Pyramid Discrete Diffusion model (PDD), which employs scale-varied diffusion models to progressively generate high-quality outdoor scenes. Experimental results of PDD demonstrate our successful exploration in generating 3D scenes both unconditionally and conditionally. We further showcase the data compatibility of the PDD model, due to its multi-scale architecture: a PDD model trained on one dataset can be easily fine-tuned with another dataset. Code is available at https://github.com/yuhengliu02/pyramid-discrete-diffusion.
Abstract（参考訳）: 拡散モデルは2次元画像と小型3次元オブジェクトの生成において顕著な結果を示した。しかし、大規模な3Dシーンの合成への応用はめったに研究されていない。これは主に、3Dシーンデータ、特に屋外シーンの複雑さと大まかなサイズ、および包括的な実世界のデータセットの可用性の制限によって、安定したシーン拡散モデルのトレーニングが困難になるためである。本研究では,粗大なパラダイムを用いて大規模3次元シーンを効果的に生成する方法を検討する。本稿では,大規模拡散モデルを用いて,高品質な屋外シーンを段階的に生成するフレームワークであるPraamid Discrete Diffusion Model (PDD)を紹介する。 PDD実験の結果,無条件および条件条件の両方で3Dシーンの生成に成功した。 1つのデータセットでトレーニングされたPDDモデルは、別のデータセットで簡単に微調整できる。コードはhttps://github.com/yuhengliu02/pyramid-discrete-diffusionで入手できる。

関連論文リスト

DINO in the Room: Leveraging 2D Foundation Models for 3D Segmentation [51.43837087865105]
大規模な画像データセットに基づいてトレーニングされた視覚基礎モデル(VFM)は、非常に高度な2D視覚認識を備えた高品質な機能を提供する。 3D画像と3Dポイントクラウドデータセットの共通利用にもかかわらず、彼らの3Dビジョンのポテンシャルは依然としてほとんど未解決のままである。 2Dファンデーションモデルの特徴を抽出し,それを3Dに投影し,最終的に3Dポイントクラウドセグメンテーションモデルに注入する,シンプルで効果的なアプローチであるDITRを導入する。
論文参考訳（メタデータ） (2025-03-24T17:59:11Z)
Structured 3D Latents for Scalable and Versatile 3D Generation [28.672494137267837]
汎用的で高品質な3Dアセット作成のための新しい3D生成手法を提案する。基本となるのは、異なる出力フォーマットへのデコードを可能にする、構造化されたLATent表現である。これは、疎人口の少ない3Dグリッドと、強力な視覚基盤モデルから抽出された濃密な多視点視覚特徴を統合することで実現される。
論文参考訳（メタデータ） (2024-12-02T13:58:38Z)
LT3SD: Latent Trees for 3D Scene Diffusion [71.91446143124648]
本稿では,大規模3次元シーン生成のための新しい潜時拡散モデルLT3SDを提案する。大規模かつ高品質な非条件3Dシーン生成におけるLT3SDの有効性とメリットを実証する。
論文参考訳（メタデータ） (2024-09-12T16:55:51Z)
Director3D: Real-world Camera Trajectory and 3D Scene Generation from Text [61.9973218744157]
実世界の3Dシーンと適応カメラトラジェクトリの両方を生成するように設計された,堅牢なオープンワールドテキスト・ツー・3D生成フレームワークであるDirector3Dを紹介する。 Director3Dは既存の手法よりも優れており、実世界の3D生成において優れたパフォーマンスを提供する。
論文参考訳（メタデータ） (2024-06-25T14:42:51Z)
Sampling 3D Gaussian Scenes in Seconds with Latent Diffusion Models [3.9373541926236766]
本稿では,2次元画像データのみを用いて3次元シーン上での潜時拡散モデルを提案する。我々は,スクラッチからでもスパースインプットビューからでも,わずか0.2秒で3Dシーンを生成することができることを示す。
論文参考訳（メタデータ） (2024-06-18T23:14:29Z)
DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文参考訳（メタデータ） (2024-06-06T17:58:15Z)
HoloDiffusion: Training a 3D Diffusion Model using 2D Images [71.1144397510333]
我々は,2次元画像のみを監督のために配置した,エンドツーエンドでトレーニング可能な新しい拡散装置を導入する。我々の拡散モデルはスケーラブルで、頑健に訓練されており、既存の3次元生成モデルへのアプローチに対して、サンプルの品質と忠実さの点で競争力があることを示す。
論文参考訳（メタデータ） (2023-03-29T07:35:56Z)
DreamFusion: Text-to-3D using 2D Diffusion [52.52529213936283]
テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
論文参考訳（メタデータ） (2022-09-29T17:50:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。