Fugu-MT 論文翻訳(概要): DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data

論文の概要: DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data

arxiv url: http://arxiv.org/abs/2406.04322v2
Date: Fri, 7 Jun 2024 02:44:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-10 12:43:28.508438
Title: DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data
Title（参考訳）: DIRECT-3D:大規模雑音データを用いた直接テキスト・ツー・3D生成の学習
Authors: Qihao Liu, Yi Zhang, Song Bai, Adam Kortylewski, Alan Yuille,
Abstract要約: テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
参考スコア（独自算出の注目度）: 50.164670363633704
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present DIRECT-3D, a diffusion-based 3D generative model for creating high-quality 3D assets (represented by Neural Radiance Fields) from text prompts. Unlike recent 3D generative models that rely on clean and well-aligned 3D data, limiting them to single or few-class generation, our model is directly trained on extensive noisy and unaligned `in-the-wild' 3D assets, mitigating the key challenge (i.e., data scarcity) in large-scale 3D generation. In particular, DIRECT-3D is a tri-plane diffusion model that integrates two innovations: 1) A novel learning framework where noisy data are filtered and aligned automatically during the training process. Specifically, after an initial warm-up phase using a small set of clean data, an iterative optimization is introduced in the diffusion process to explicitly estimate the 3D pose of objects and select beneficial data based on conditional density. 2) An efficient 3D representation that is achieved by disentangling object geometry and color features with two separate conditional diffusion models that are optimized hierarchically. Given a prompt input, our model generates high-quality, high-resolution, realistic, and complex 3D objects with accurate geometric details in seconds. We achieve state-of-the-art performance in both single-class generation and text-to-3D generation. We also demonstrate that DIRECT-3D can serve as a useful 3D geometric prior of objects, for example to alleviate the well-known Janus problem in 2D-lifting methods such as DreamFusion. The code and models are available for research purposes at: https://github.com/qihao067/direct3d.
Abstract（参考訳）: DIRECT-3Dは、テキストプロンプトから高品質な3Dアセットを作成するための拡散に基づく3D生成モデルである。クリーンで整合性の高い3Dデータに依存している最近の3D生成モデルとは異なり、我々のモデルは大規模な3D生成において重要な課題(すなわちデータ不足)を軽減し、広範囲のノイズと非整合な3Dアセットに基づいて直接訓練されている。特に、DIRECT-3Dは2つのイノベーションを統合する三面拡散モデルである。 1) 学習過程において, ノイズの多いデータをフィルタリングし, 自動的にアライメントする新しい学習フレームワーク。具体的には、少量のクリーンデータを用いた初期ウォームアップフェーズの後、拡散過程に反復最適化を導入し、オブジェクトの3Dポーズを明示的に推定し、条件密度に基づいて有益なデータを選択する。 2) 物体形状と色特徴を階層的に最適化した2つの異なる条件拡散モデルで切り離すことにより, 効率的な3次元表現を実現する。迅速な入力を与えられたモデルでは、高精度で高解像度でリアルで複雑な3Dオブジェクトを生成し、正確な幾何学的詳細を数秒で生成する。単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。また、DreamFusionのような2次元リフト法において、よく知られたJanus問題を緩和するために、DIRECT-3Dがオブジェクトの3次元幾何として有用であることを示す。コードとモデルは、 https://github.com/qihao067/direct3d.comで研究目的で利用可能である。

関連論文リスト

Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。 UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文参考訳（メタデータ） (2025-03-13T17:56:22Z)
Zero-1-to-G: Taming Pretrained 2D Diffusion Model for Direct 3D Generation [66.75243908044538]
我々は,事前学習した2次元拡散モデルを用いたガウススプラット上での3次元直接生成手法であるZero-1-to-Gを導入する。 3D認識を取り入れるために,複雑な相関関係を捉え,生成されたスプラット間の3D一貫性を強制する,クロスビュー層とクロスアトリビュートアテンション層を導入する。これにより、Zero-1-to-Gは、事前訓練された2D拡散前処理を効果的に活用する最初の直接画像から3D生成モデルとなり、効率的なトレーニングと未確認物体への一般化が実現された。
論文参考訳（メタデータ） (2025-01-09T18:37:35Z)
A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本稿では,2次元監視のみを用いた3次元画像調和拡散モデルの学習フレームワークを提案する。既存の3D生成モデルは、大規模な3Dデータセットが不足しているため、完全に3Dの監視に依存している。
論文参考訳（メタデータ） (2024-12-01T00:29:57Z)
Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。 3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文参考訳（メタデータ） (2024-10-12T10:14:11Z)
ScalingGaussian: Enhancing 3D Content Creation with Generative Gaussian Splatting [30.99112626706754]
高品質な3Dアセットの作成は、デジタル遺産、エンターテイメント、ロボット工学の応用において最重要である。伝統的に、このプロセスはモデリングに熟練した専門家と専門的なソフトウェアを必要とする。本稿では,3Dテクスチャを効率的に生成する新しい3Dコンテンツ作成フレームワークを提案する。
論文参考訳（メタデータ） (2024-07-26T18:26:01Z)
LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。 3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文参考訳（メタデータ） (2024-03-18T17:54:34Z)
Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文参考訳（メタデータ） (2024-03-14T07:39:59Z)
3DTopia: Large Text-to-3D Generation Model with Hybrid Diffusion Priors [85.11117452560882]
本稿では,2段階のテキスト・ツー・3D生成システムである3DTopiaについて述べる。 3次元データから直接学習される3次元拡散の第1段階のサンプルは、テキスト条件付き3次元潜伏拡散モデルを用いており、高速なプロトタイピングのための粗い3次元サンプルを迅速に生成する。第2段階は2次元拡散前処理を利用して、粗い3次元モデルのテクスチャを第1段階からさらに洗練し、高品質なテクスチャ生成のための潜時空間と画素空間の最適化からなる。
論文参考訳（メタデータ） (2024-03-04T17:26:28Z)
Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D Prior [52.44678180286886]
2次元拡散モデルでは、3次元データなしで優れた一般化と豊富な詳細を実現する蒸留手法が見つかる。提案するSherpa3Dは,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3Dフレームワークである。
論文参考訳（メタデータ） (2023-12-11T18:59:18Z)
Text-to-3D Generation with Bidirectional Diffusion using both 2D and 3D priors [16.93758384693786]
双方向拡散(Bidirectional Diffusion、BiDiff)は、3次元と2次元の拡散プロセスの両方を組み込んだ統合フレームワークである。我々のモデルは高品質で多種多様でスケーラブルな3D生成を実現する。
論文参考訳（メタデータ） (2023-12-07T10:00:04Z)
GaussianDreamer: Fast Generation from Text to 3D Gaussians by Bridging 2D and 3D Diffusion Models [102.22388340738536]
2Dおよび3D拡散モデルは、プロンプトに基づいて適切な3Dオブジェクトを生成することができる。 3次元拡散モデルには優れた3次元整合性があるが、トレーニング可能な3次元データは高価で入手が難しいため、その品質と一般化は制限されている。本稿では,2種類の拡散モデルから近年の明示的かつ効率的な3次元ガウススプラッティング表現を通じて電力を橋渡ししようとする。
論文参考訳（メタデータ） (2023-10-12T17:22:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。