論文の概要: DreamTime: An Improved Optimization Strategy for Text-to-3D Content
Creation
- arxiv url: http://arxiv.org/abs/2306.12422v1
- Date: Wed, 21 Jun 2023 17:59:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 12:30:18.596287
- Title: DreamTime: An Improved Optimization Strategy for Text-to-3D Content
Creation
- Title(参考訳): DreamTime: テキストから3Dコンテンツ作成のための最適化戦略の改善
- Authors: Yukun Huang, Jianan Wang, Yukai Shi, Xianbiao Qi, Zheng-Jun Zha, Lei
Zhang
- Abstract要約: 何十億もの画像テキスト対に事前トレーニングされたテキスト対拡散モデルにより, ランダムニューラルネットワーク場 (NeRF) とスコア蒸留を最適化し, テキスト対3次元コンテンツ作成が可能となった。
しかし, 得られた3Dモデルでは, (a) 飽和色やヤヌス問題などの品質上の懸念, (b) テキスト誘導画像合成と比較して非常に低い多様性を示す。
本稿では,NeRF最適化プロセスとスコア蒸留における一様時間ステップサンプリングの矛盾が,これらの制限の主な原因であることを示す。
- 参考スコア(独自算出の注目度): 73.532433328835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image diffusion models pre-trained on billions of image-text pairs
have recently enabled text-to-3D content creation by optimizing a randomly
initialized Neural Radiance Fields (NeRF) with score distillation. However, the
resultant 3D models exhibit two limitations: (a) quality concerns such as
saturated color and the Janus problem; (b) extremely low diversity comparing to
text-guided image synthesis. In this paper, we show that the conflict between
NeRF optimization process and uniform timestep sampling in score distillation
is the main reason for these limitations. To resolve this conflict, we propose
to prioritize timestep sampling with monotonically non-increasing functions,
which aligns NeRF optimization with the sampling process of diffusion model.
Extensive experiments show that our simple redesign significantly improves
text-to-3D content creation with higher quality and diversity.
- Abstract(参考訳): 何十億もの画像テキスト対に事前トレーニングされたテキスト対拡散モデルにより, ランダム初期化ニューラルラジアンス場(NeRF)をスコア蒸留で最適化することにより, テキスト対3Dコンテンツ作成が可能となった。
しかし、結果として得られた3Dモデルには2つの制限がある。
(a)飽和色及びジャヌス問題等の品質問題
(b)テキスト誘導画像合成と比較して極端に多様性が低い。
本稿では,NeRF最適化プロセスとスコア蒸留における一様時間ステップサンプリングの矛盾が,これらの制限の主な原因であることを示す。
この対立を解決するために,NeRF最適化を拡散モデルのサンプリングプロセスと整合させる単調な非増加関数を用いた時間ステップサンプリングの優先順位付けを提案する。
大規模な実験により、我々の単純な再設計により、より高品質で多様な3Dコンテンツ作成が大幅に改善された。
関連論文リスト
- OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。
本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。
提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-06-14T13:16:18Z) - Unique3D: High-Quality and Efficient 3D Mesh Generation from a Single Image [28.759158325097093]
Unique3Dは、シングルビュー画像から高品質な3Dメッシュを効率的に生成するための、新しい画像間3Dフレームワークである。
我々のフレームワークは、最先端世代の忠実さと強力な一般化性を備えている。
論文 参考訳(メタデータ) (2024-05-30T17:59:54Z) - DreamFlow: High-Quality Text-to-3D Generation by Approximating Probability Flow [72.9209434105892]
本稿では,T2I拡散を利用したテキスト・ツー・3Dの最適化手法を提案する。
提案手法を応用して,実用的な3段階間粗大なテキスト・ツー・3D最適化フレームワークであるDreamFlowを設計する。
論文 参考訳(メタデータ) (2024-03-22T05:38:15Z) - Instant3D: Fast Text-to-3D with Sparse-View Generation and Large
Reconstruction Model [68.98311213582949]
テキストプロンプトから高品質で多様な3Dアセットをフィードフォワードで生成する新しい手法であるInstant3Dを提案する。
提案手法は,従来の最適化手法よりも2桁早く,20秒以内に高画質の多種多様な3Dアセットを生成できる。
論文 参考訳(メタデータ) (2023-11-10T18:03:44Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - Efficient Text-Guided 3D-Aware Portrait Generation with Score
Distillation Sampling on Distribution [28.526714129927093]
本研究では,DreamPortraitを提案する。DreamPortraitは,テキスト誘導型3D画像の単一フォワードパスで効率よく作成することを目的としている。
さらに,テキストと3D認識空間の対応をモデルが明示的に知覚できるように,3D対応のゲート・アテンション機構を設計する。
論文 参考訳(メタデータ) (2023-06-03T11:08:38Z) - HiFA: High-fidelity Text-to-3D Generation with Advanced Diffusion
Guidance [19.252300247300145]
本研究は,高品質なテキスト・ツー・3D生成を実現するための全体的サンプリングと平滑化手法を提案する。
テキスト・画像拡散モデルの潜時空間と画像空間における復調スコアを計算する。
単一段最適化において高品質なレンダリングを生成するため,我々はNeRF線に沿ったz座標の分散の正則化を提案する。
論文 参考訳(メタデータ) (2023-05-30T05:56:58Z) - Magic3D: High-Resolution Text-to-3D Content Creation [78.40092800817311]
DreamFusionは最近、NeRF(Neural Radiance Fields)を最適化するための事前訓練されたテキスト-画像拡散モデルの有用性を実証した。
本稿では,2段階最適化フレームワークを用いて,これらの制約に対処する。
Magic3Dと呼ばれる我々の手法は、DreamFusionより2倍高速な高品質な3Dメッシュモデルを40分で作成できる。
論文 参考訳(メタデータ) (2022-11-18T18:59:59Z) - Differentiable Rendering with Perturbed Optimizers [85.66675707599782]
2Dイメージプロジェクションから3Dシーンを推論することは、コンピュータビジョンにおける中核的な問題の一つだ。
我々の研究は、よく知られた微分可能な定式化とランダムなスムーズなレンダリングの関連性を強調している。
提案手法を3次元シーン再構成に適用し,その利点を6次元ポーズ推定と3次元メッシュ再構成の課題に適用した。
論文 参考訳(メタデータ) (2021-10-18T08:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。