論文の概要: Efficient Text-Guided 3D-Aware Portrait Generation with Score
Distillation Sampling on Distribution
- arxiv url: http://arxiv.org/abs/2306.02083v1
- Date: Sat, 3 Jun 2023 11:08:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 20:14:10.304826
- Title: Efficient Text-Guided 3D-Aware Portrait Generation with Score
Distillation Sampling on Distribution
- Title(参考訳): 分散度を指標とした高効率テキストガイド3次元画像生成
- Authors: Yiji Cheng, Fei Yin, Xiaoke Huang, Xintong Yu, Jiaxiang Liu, Shikun
Feng, Yujiu Yang, Yansong Tang
- Abstract要約: 本研究では,DreamPortraitを提案する。DreamPortraitは,テキスト誘導型3D画像の単一フォワードパスで効率よく作成することを目的としている。
さらに,テキストと3D認識空間の対応をモデルが明示的に知覚できるように,3D対応のゲート・アテンション機構を設計する。
- 参考スコア(独自算出の注目度): 28.526714129927093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-3D is an emerging task that allows users to create 3D content with
infinite possibilities. Existing works tackle the problem by optimizing a 3D
representation with guidance from pre-trained diffusion models. An apparent
drawback is that they need to optimize from scratch for each prompt, which is
computationally expensive and often yields poor visual fidelity. In this paper,
we propose DreamPortrait, which aims to generate text-guided 3D-aware portraits
in a single-forward pass for efficiency. To achieve this, we extend Score
Distillation Sampling from datapoint to distribution formulation, which injects
semantic prior into a 3D distribution. However, the direct extension will lead
to the mode collapse problem since the objective only pursues semantic
alignment. Hence, we propose to optimize a distribution with hierarchical
condition adapters and GAN loss regularization. For better 3D modeling, we
further design a 3D-aware gated cross-attention mechanism to explicitly let the
model perceive the correspondence between the text and the 3D-aware space.
These elaborated designs enable our model to generate portraits with robust
multi-view semantic consistency, eliminating the need for optimization-based
methods. Extensive experiments demonstrate our model's highly competitive
performance and significant speed boost against existing methods.
- Abstract(参考訳): Text-to-3Dは、ユーザーが無限の可能性で3Dコンテンツを作成できる新しいタスクだ。
既存の作業は、事前訓練された拡散モデルからのガイダンスで3次元表現を最適化することで、この問題に対処する。
明らかな欠点は、各プロンプトのスクラッチから最適化する必要があることだ。
本稿では,テキストガイド付き3d認識ポートレートを単一フォワードパスで効率良く生成することを目的としたdreamportraitを提案する。
そこで本研究では,Score Distillation Smplingをデータポイントから分布定式化に拡張し,セマンティクスを3次元分布に注入する。
しかしながら、直接拡張は、目的が意味的アライメントのみを追求するため、モード崩壊問題を引き起こす。
そこで我々は階層型条件アダプタとgan損失正規化を用いた分布の最適化を提案する。
より優れた3Dモデリングを実現するため,テキストと3D認識空間の対応性を明瞭に知覚する3D対応のゲート・アテンション機構を設計する。
これらの精巧な設計により、モデルはロバストなマルチビューセマンティクス一貫性を持つポートレートを生成することができ、最適化ベースのメソッドは不要である。
広範な実験により,本モデルの性能向上と既存手法に対する大幅な高速化が実証された。
関連論文リスト
- 3DTopia: Large Text-to-3D Generation Model with Hybrid Diffusion Priors [86.31822685078642]
本稿では,2段階のテキスト・ツー・3D生成システムである3DTopiaについて述べる。
3次元データから直接学習される3次元拡散の第1段階のサンプルは、テキスト条件付き3次元潜伏拡散モデルを用いており、高速なプロトタイピングのための粗い3次元サンプルを迅速に生成する。
第2段階は2次元拡散前処理を利用して、粗い3次元モデルのテクスチャを第1段階からさらに洗練し、高品質なテクスチャ生成のための潜時空間と画素空間の最適化からなる。
論文 参考訳(メタデータ) (2024-03-04T17:26:28Z) - Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D
Prior [52.44678180286886]
2次元拡散モデルでは、3次元データなしで優れた一般化と豊富な詳細を実現する蒸留手法が見つかる。
提案するSherpa3Dは,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3Dフレームワークである。
論文 参考訳(メタデータ) (2023-12-11T18:59:18Z) - Text-to-3D Generation with Bidirectional Diffusion using both 2D and 3D
priors [16.93758384693786]
双方向拡散(Bidirectional Diffusion、BiDiff)は、3次元と2次元の拡散プロセスの両方を組み込んだ統合フレームワークである。
我々のモデルは高品質で多種多様でスケーラブルな3D生成を実現する。
論文 参考訳(メタデータ) (2023-12-07T10:00:04Z) - X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap
Between Text-to-2D and Text-to-3D Generation [64.12848271290119]
X-Dreamerは高品質なテキストから3Dコンテンツを作成するための新しいアプローチである。
テキスト対2D合成とテキスト対3D合成のギャップを埋める。
論文 参考訳(メタデータ) (2023-11-30T07:23:00Z) - SPiC-E : Structural Priors in 3D Diffusion Models using Cross-Entity
Attention [10.400213716661773]
本研究では,3次元拡散モデルに構造的ガイダンスを加えるニューラルネットワークSPiC-Eを提案する。
提案手法は,3次元スタイリゼーション,意味的形状の編集,テキスト条件の抽象化-to-3Dなど,様々なアプリケーションをサポートする。
論文 参考訳(メタデータ) (2023-11-29T17:36:49Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - EfficientDreamer: High-Fidelity and Robust 3D Creation via
Orthogonal-view Diffusion Prior [45.43710135562116]
与えられたテキストプロンプトに対して4つのサブイメージからなる画像を生成する2次元拡散モデルを提案する。
3Dコンテンツはこの拡散モデルで作成され、3D一貫性を高め、強力な構造化されたセマンティック先行を提供する。
生成した3Dコンテンツの品質を大幅に向上させる,プログレッシブな3D合成戦略を採用している。
論文 参考訳(メタデータ) (2023-08-25T07:39:26Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - DreamFusion: Text-to-3D using 2D Diffusion [52.52529213936283]
テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。
本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。
提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-09-29T17:50:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。