論文の概要: HiFA: High-fidelity Text-to-3D Generation with Advanced Diffusion
Guidance
- arxiv url: http://arxiv.org/abs/2305.18766v4
- Date: Mon, 11 Mar 2024 06:14:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 17:18:57.560768
- Title: HiFA: High-fidelity Text-to-3D Generation with Advanced Diffusion
Guidance
- Title(参考訳): HiFA:高度拡散誘導による高忠実テキスト・ツー・3D生成
- Authors: Junzhe Zhu and Peiye Zhuang and Sanmi Koyejo
- Abstract要約: 本研究は,高品質なテキスト・ツー・3D生成を実現するための全体的サンプリングと平滑化手法を提案する。
テキスト・画像拡散モデルの潜時空間と画像空間における復調スコアを計算する。
単一段最適化において高品質なレンダリングを生成するため,我々はNeRF線に沿ったz座標の分散の正則化を提案する。
- 参考スコア(独自算出の注目度): 19.252300247300145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advancements in automatic text-to-3D generation have been remarkable.
Most existing methods use pre-trained text-to-image diffusion models to
optimize 3D representations like Neural Radiance Fields (NeRFs) via
latent-space denoising score matching. Yet, these methods often result in
artifacts and inconsistencies across different views due to their suboptimal
optimization approaches and limited understanding of 3D geometry. Moreover, the
inherent constraints of NeRFs in rendering crisp geometry and stable textures
usually lead to a two-stage optimization to attain high-resolution details.
This work proposes holistic sampling and smoothing approaches to achieve
high-quality text-to-3D generation, all in a single-stage optimization. We
compute denoising scores in the text-to-image diffusion model's latent and
image spaces. Instead of randomly sampling timesteps (also referred to as noise
levels in denoising score matching), we introduce a novel timestep annealing
approach that progressively reduces the sampled timestep throughout
optimization. To generate high-quality renderings in a single-stage
optimization, we propose regularization for the variance of z-coordinates along
NeRF rays. To address texture flickering issues in NeRFs, we introduce a kernel
smoothing technique that refines importance sampling weights coarse-to-fine,
ensuring accurate and thorough sampling in high-density regions. Extensive
experiments demonstrate the superiority of our method over previous approaches,
enabling the generation of highly detailed and view-consistent 3D assets
through a single-stage training process.
- Abstract(参考訳): 自動テキストから3D生成の進歩は目覚ましい。
既存のほとんどのメソッドは、トレーニング済みのテキスト-画像拡散モデルを使用して、潜時空間の復調スコアマッチングを通じてNeural Radiance Fields (NeRF)のような3D表現を最適化する。
しかし、これらの手法は、しばしば、サブ最適最適化アプローチと3次元幾何学の限られた理解のために、異なる視点でアーティファクトや不整合をもたらす。
さらに、クリプス幾何学や安定したテクスチャのレンダリングにおけるNeRFの固有の制約は、高精細度を実現するための2段階の最適化につながる。
本研究は,高品質なテキストから3d生成を実現するための包括的サンプリングと平滑化手法を提案する。
テキストから画像への拡散モデルの潜在および画像空間における分別スコアを計算する。
スコアマッチングにおけるノイズレベル(ノイズレベル)をランダムにサンプリングする代わりに、最適化全体を通してサンプリングされたタイムステップを段階的に削減する新しいタイムステップアニーリングアプローチを導入する。
単一段最適化において高品質なレンダリングを生成するため,我々はNeRF線に沿ったz座標の分散の正則化を提案する。
我々は,NeRFにおけるテクスチャ・フリッカリング問題に対処するため,重みを粗くし,高精度かつ徹底的なサンプリングを行うカーネル・スムースティング手法を提案する。
広範な実験により,従来の手法よりも優れていることを示し,一段階のトレーニングプロセスを通じて,高度に詳細な3dアセットの生成を可能にした。
関連論文リスト
- Beyond Gaussians: Fast and High-Fidelity 3D Splatting with Linear Kernels [51.08794269211701]
本稿では,ガウスカーネルを線形カーネルに置き換えて,よりシャープで高精度な結果を得る3Dリニアスティング(DLS)を提案する。
3DLSは、最先端の忠実さと正確さを示し、ベースライン3DGSよりも30%のFPS改善を実現している。
論文 参考訳(メタデータ) (2024-11-19T11:59:54Z) - MVGaussian: High-Fidelity text-to-3D Content Generation with Multi-View Guidance and Surface Densification [13.872254142378772]
本稿では,テキスト・ツー・3Dコンテンツ生成のための統合フレームワークを提案する。
提案手法は3次元モデルの構造を反復的に形成するために多視点誘導を利用する。
また,表面近傍にガウスを配向させる新しい密度化アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-09-10T16:16:34Z) - OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。
本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。
提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-06-14T13:16:18Z) - Improving Robustness for Joint Optimization of Camera Poses and
Decomposed Low-Rank Tensorial Radiance Fields [26.4340697184666]
本稿では,分解された低ランクテンソルで表現されるカメラポーズとシーン形状を共同で洗練するアルゴリズムを提案する。
また,スムーズな2次元監視手法,ランダムスケールカーネルパラメータ,エッジ誘導損失マスクを提案する。
論文 参考訳(メタデータ) (2024-02-20T18:59:02Z) - Text-Image Conditioned Diffusion for Consistent Text-to-3D Generation [28.079441901818296]
我々は,粒度の細かい視野の整合性を明示したNeRF(Neural Radiance Fields)のテキスト・ツー・3D手法を提案する。
本手法は,既存のテキスト・ツー・3D法に対して最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T01:09:49Z) - Learn to Optimize Denoising Scores for 3D Generation: A Unified and
Improved Diffusion Prior on NeRF and 3D Gaussian Splatting [60.393072253444934]
本稿では,3次元生成タスクの拡散先行性向上を目的とした統合フレームワークを提案する。
拡散先行と拡散モデルの訓練手順の相違を同定し、3次元生成の質を著しく損なう。
論文 参考訳(メタデータ) (2023-12-08T03:55:34Z) - StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。
まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。
第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-02T02:27:58Z) - AdaDiff: Adaptive Step Selection for Fast Diffusion [88.8198344514677]
我々は、インスタンス固有のステップ利用ポリシーを学ぶために設計されたフレームワークであるAdaDiffを紹介する。
AdaDiffはポリシー勾配法を用いて最適化され、慎重に設計された報酬関数を最大化する。
提案手法は,固定された50ステップを用いて,ベースラインと比較して視覚的品質の点で同様の結果が得られる。
論文 参考訳(メタデータ) (2023-11-24T11:20:38Z) - DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation [55.661467968178066]
本稿では,DreamGaussianを提案する。DreamGaussianは,効率と品質を両立させる新しい3Dコンテンツ生成フレームワークである。
我々の重要な洞察は、UV空間におけるメッシュ抽出とテクスチャ改善を伴う3次元ガウススプラッティングモデルを設計することである。
ニューラル・ラジアンス・フィールドにおける占有プルーニングとは対照的に、3次元ガウスの進行的な密度化は3次元生成タスクにおいて著しく速く収束することを示した。
論文 参考訳(メタデータ) (2023-09-28T17:55:05Z) - DreamTime: An Improved Optimization Strategy for Diffusion-Guided 3D Generation [24.042803966469066]
本研究は, 点数蒸留における3次元最適化プロセスと一様時間ステップサンプリングの矛盾が, これらの制約の主な原因であることを示す。
本稿では, 単調な非増加関数を用いた時間ステップサンプリングを優先し, 3次元最適化プロセスと拡散モデルのサンプリングプロセスとの整合性を示す。
私たちのシンプルなデザイン変更は、より高速なコンバージェンス、より良い品質、多様性で3Dコンテンツ作成を大幅に改善します。
論文 参考訳(メタデータ) (2023-06-21T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。