論文の概要: Efficient Text-Guided 3D-Aware Portrait Generation with Score
Distillation Sampling on Distribution
- arxiv url: http://arxiv.org/abs/2306.02083v1
- Date: Sat, 3 Jun 2023 11:08:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 20:14:10.304826
- Title: Efficient Text-Guided 3D-Aware Portrait Generation with Score
Distillation Sampling on Distribution
- Title(参考訳): 分散度を指標とした高効率テキストガイド3次元画像生成
- Authors: Yiji Cheng, Fei Yin, Xiaoke Huang, Xintong Yu, Jiaxiang Liu, Shikun
Feng, Yujiu Yang, Yansong Tang
- Abstract要約: 本研究では,DreamPortraitを提案する。DreamPortraitは,テキスト誘導型3D画像の単一フォワードパスで効率よく作成することを目的としている。
さらに,テキストと3D認識空間の対応をモデルが明示的に知覚できるように,3D対応のゲート・アテンション機構を設計する。
- 参考スコア(独自算出の注目度): 28.526714129927093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-3D is an emerging task that allows users to create 3D content with
infinite possibilities. Existing works tackle the problem by optimizing a 3D
representation with guidance from pre-trained diffusion models. An apparent
drawback is that they need to optimize from scratch for each prompt, which is
computationally expensive and often yields poor visual fidelity. In this paper,
we propose DreamPortrait, which aims to generate text-guided 3D-aware portraits
in a single-forward pass for efficiency. To achieve this, we extend Score
Distillation Sampling from datapoint to distribution formulation, which injects
semantic prior into a 3D distribution. However, the direct extension will lead
to the mode collapse problem since the objective only pursues semantic
alignment. Hence, we propose to optimize a distribution with hierarchical
condition adapters and GAN loss regularization. For better 3D modeling, we
further design a 3D-aware gated cross-attention mechanism to explicitly let the
model perceive the correspondence between the text and the 3D-aware space.
These elaborated designs enable our model to generate portraits with robust
multi-view semantic consistency, eliminating the need for optimization-based
methods. Extensive experiments demonstrate our model's highly competitive
performance and significant speed boost against existing methods.
- Abstract(参考訳): Text-to-3Dは、ユーザーが無限の可能性で3Dコンテンツを作成できる新しいタスクだ。
既存の作業は、事前訓練された拡散モデルからのガイダンスで3次元表現を最適化することで、この問題に対処する。
明らかな欠点は、各プロンプトのスクラッチから最適化する必要があることだ。
本稿では,テキストガイド付き3d認識ポートレートを単一フォワードパスで効率良く生成することを目的としたdreamportraitを提案する。
そこで本研究では,Score Distillation Smplingをデータポイントから分布定式化に拡張し,セマンティクスを3次元分布に注入する。
しかしながら、直接拡張は、目的が意味的アライメントのみを追求するため、モード崩壊問題を引き起こす。
そこで我々は階層型条件アダプタとgan損失正規化を用いた分布の最適化を提案する。
より優れた3Dモデリングを実現するため,テキストと3D認識空間の対応性を明瞭に知覚する3D対応のゲート・アテンション機構を設計する。
これらの精巧な設計により、モデルはロバストなマルチビューセマンティクス一貫性を持つポートレートを生成することができ、最適化ベースのメソッドは不要である。
広範な実験により,本モデルの性能向上と既存手法に対する大幅な高速化が実証された。
関連論文リスト
- VividDreamer: Towards High-Fidelity and Efficient Text-to-3D Generation [69.68568248073747]
拡散に基づく3次元生成タスクにおいて, ポーズ依存型連続蒸留サンプリング (PCDS) を提案する。
PCDSは拡散軌道内でポーズ依存整合関数を構築し、最小サンプリングステップで真の勾配を近似することができる。
そこで我々は,まず1ステップのPCDSを用いて3Dオブジェクトの基本構造を作成し,さらに徐々にPCDSのステップを拡大して細かな細部を生成する,粗大な最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-21T08:21:52Z) - OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。
本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。
提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-06-14T13:16:18Z) - Unique3D: High-Quality and Efficient 3D Mesh Generation from a Single Image [28.759158325097093]
Unique3Dは、シングルビュー画像から高品質な3Dメッシュを効率的に生成するための、新しい画像間3Dフレームワークである。
我々のフレームワークは、最先端世代の忠実さと強力な一般化性を備えている。
論文 参考訳(メタデータ) (2024-05-30T17:59:54Z) - DreamFlow: High-Quality Text-to-3D Generation by Approximating Probability Flow [72.9209434105892]
本稿では,T2I拡散を利用したテキスト・ツー・3Dの最適化手法を提案する。
提案手法を応用して,実用的な3段階間粗大なテキスト・ツー・3D最適化フレームワークであるDreamFlowを設計する。
論文 参考訳(メタデータ) (2024-03-22T05:38:15Z) - Spice-E : Structural Priors in 3D Diffusion using Cross-Entity Attention [9.52027244702166]
Spice-Eは3D拡散モデルに構造ガイダンスを追加するニューラルネットワークである。
提案手法は,3次元スタイリゼーション,意味的形状の編集,テキスト条件の抽象化-to-3Dなど,様々なアプリケーションをサポートする。
論文 参考訳(メタデータ) (2023-11-29T17:36:49Z) - EfficientDreamer: High-Fidelity and Robust 3D Creation via Orthogonal-view Diffusion Prior [59.25950280610409]
直交ビュー画像誘導を利用した高画質な3Dコンテンツ生成パイプラインを提案する。
本稿では,与えられたテキストプロンプトに基づいて4つのサブイメージからなる画像を生成する2次元拡散モデルを提案する。
また,生成した3Dコンテンツの詳細をさらに改善する3D合成ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-25T07:39:26Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - DreamTime: An Improved Optimization Strategy for Diffusion-Guided 3D Generation [24.042803966469066]
本研究は, 点数蒸留における3次元最適化プロセスと一様時間ステップサンプリングの矛盾が, これらの制約の主な原因であることを示す。
本稿では, 単調な非増加関数を用いた時間ステップサンプリングを優先し, 3次元最適化プロセスと拡散モデルのサンプリングプロセスとの整合性を示す。
私たちのシンプルなデザイン変更は、より高速なコンバージェンス、より良い品質、多様性で3Dコンテンツ作成を大幅に改善します。
論文 参考訳(メタデータ) (2023-06-21T17:59:45Z) - DreamFusion: Text-to-3D using 2D Diffusion [52.52529213936283]
テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。
本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。
提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-09-29T17:50:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。