論文の概要: Free-style and Fast 3D Portrait Synthesis
- arxiv url: http://arxiv.org/abs/2306.15419v1
- Date: Tue, 27 Jun 2023 12:23:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 13:31:13.208045
- Title: Free-style and Fast 3D Portrait Synthesis
- Title(参考訳): フリースタイル・高速3次元ポートレート合成
- Authors: Tianxiang Ma, Kang Zhao, Jianxin Sun, Jing Dong, Tieniu Tan
- Abstract要約: テキストプロンプトを使ってスタイルを指定できる高速な3次元肖像画合成フレームワークを提案する。
実験結果から,本手法は数分で高品質な3D画像の撮影が可能であり,最先端の3D画像よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 54.371626225819696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficiently generating a free-style 3D portrait with high quality and
consistency is a promising yet challenging task. The portrait styles generated
by most existing methods are usually restricted by their 3D generators, which
are learned in specific facial datasets, such as FFHQ. To get a free-style 3D
portrait, one can build a large-scale multi-style database to retrain the 3D
generator, or use a off-the-shelf tool to do the style translation. However,
the former is time-consuming due to data collection and training process, the
latter may destroy the multi-view consistency. To tackle this problem, we
propose a fast 3D portrait synthesis framework in this paper, which enable one
to use text prompts to specify styles. Specifically, for a given portrait
style, we first leverage two generative priors, a 3D-aware GAN generator (EG3D)
and a text-guided image editor (Ip2p), to quickly construct a few-shot training
set, where the inference process of Ip2p is optimized to make editing more
stable. Then we replace original triplane generator of EG3D with a
Image-to-Triplane (I2T) module for two purposes: 1) getting rid of the style
constraints of pre-trained EG3D by fine-tuning I2T on the few-shot dataset; 2)
improving training efficiency by fixing all parts of EG3D except I2T.
Furthermore, we construct a multi-style and multi-identity 3D portrait database
to demonstrate the scalability and generalization of our method. Experimental
results show that our method is capable of synthesizing high-quality 3D
portraits with specified styles in a few minutes, outperforming the
state-of-the-art.
- Abstract(参考訳): 高品質で一貫性のあるフリースタイルの3Dポートレートを効果的に生成することは、有望だが難しい課題だ。
既存のほとんどのメソッドで生成されるポートレートスタイルは通常、FFHQのような特定の顔データセットで学習される3Dジェネレータによって制限される。
フリースタイルの3Dポートレートを得るには、大規模なマルチスタイルデータベースを構築して3Dジェネレータを再トレーニングするか、あるいはオフザシェルフツールを使ってスタイル翻訳を行うことができる。
しかし、データ収集とトレーニングプロセスのために前者は時間がかかり、後者はマルチビューの一貫性を損なう可能性がある。
この問題に対処するため,本論文では,テキストプロンプトを用いてスタイルを指定可能な高速な3次元肖像画合成フレームワークを提案する。
具体的には、3d対応ganジェネレータ (eg3d) とテキスト誘導画像エディタ (ip2p) の2つの生成前処理を利用して、数発のトレーニングセットを迅速に構築し、ip2pの推論プロセスを最適化し、編集をより安定させる。
次に、EG3Dの原型三葉機を2つの目的のためにImage-to-Triplane (I2T)モジュールに置き換える。
1) 少数ショットデータセット上でI2Tを微調整することにより,事前訓練したEG3Dのスタイル制約を解消する。
2) I2Tを除くEG3Dのすべての部分の固定による訓練効率の向上。
さらに,本手法のスケーラビリティと一般化を実証するために,マルチスタイルかつマルチidentity 3dポートレートデータベースを構築した。
実験の結果,高品質な3dポートレートを数分で合成でき,最新技術に匹敵することがわかった。
関連論文リスト
- Portrait3D: Text-Guided High-Quality 3D Portrait Generation Using Pyramid Representation and GANs Prior [21.18119394249007]
テキスト・ツー・3D画像生成に先立って,新しい幾何学的外観を持つニューラルレンダリングに基づく新しいフレームワークであるPortrait3Dを提案する。
実験の結果,Portrait3Dはプロンプトに合わせたリアルで高品質で標準的な3D肖像画を制作できることがわかった。
論文 参考訳(メタデータ) (2024-04-16T08:52:42Z) - RealmDreamer: Text-Driven 3D Scene Generation with Inpainting and Depth Diffusion [39.03289977892935]
RealmDreamerはテキスト記述から一般的な前方向きの3Dシーンを生成する技術である。
我々の技術はビデオやマルチビューのデータを必要とせず、様々なスタイルの高品質な3Dシーンを合成することができる。
論文 参考訳(メタデータ) (2024-04-10T17:57:41Z) - Sketch3D: Style-Consistent Guidance for Sketch-to-3D Generation [55.73399465968594]
本稿では,テキスト記述と一致する色と入力スケッチに整合した形状のリアルな3Dアセットを生成するための,新しい生成パラダイムSketch3Dを提案する。
3つの戦略は、3次元ガウスの最適化、すなわち分布伝達機構による構造最適化、直感的なMSE損失による色最適化、CLIPに基づく幾何学的類似性損失によるスケッチ類似性最適化である。
論文 参考訳(メタデータ) (2024-04-02T11:03:24Z) - HyperStyle3D: Text-Guided 3D Portrait Stylization via Hypernetworks [101.36230756743106]
本論文は,2次元画像の中間表現として,2次元領域と3次元領域を3次元フィールドで橋渡しする3次元GANの成功に着想を得たものである。
本稿では,3次元ポートレートスタイリングのための3次元認識型GANをベースとしたHyperStyle3Dという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-19T07:22:05Z) - AgileGAN3D: Few-Shot 3D Portrait Stylization by Augmented Transfer
Learning [80.67196184480754]
本稿では,3次元芸術的に魅力的な肖像画を詳細な幾何学で作成できる新しいフレームワークであるemphAgileGAN3Dを提案する。
新しいスタイリゼーションは、わずか (約20) の未完成の2D例で得られる。
われわれのパイプラインは、ユーザの写真を多様な3Dアートのポートレートに変える強力な能力を示している。
論文 参考訳(メタデータ) (2023-03-24T23:04:20Z) - CC3D: Layout-Conditioned Generation of Compositional 3D Scenes [49.281006972028194]
本稿では,複雑な3次元シーンを2次元セマンティックなシーンレイアウトで合成する条件生成モデルであるCC3Dを紹介する。
合成3D-FRONTと実世界のKITTI-360データセットに対する評価は、我々のモデルが視覚的および幾何学的品質を改善したシーンを生成することを示す。
論文 参考訳(メタデータ) (2023-03-21T17:59:02Z) - Make Your Brief Stroke Real and Stereoscopic: 3D-Aware Simplified Sketch
to Portrait Generation [51.64832538714455]
既存の研究は2次元平面の像のみを固定ビューで生成し、その結果を鮮明にしない。
本稿では立体視による簡易スケッチ・トゥ・ポートレート(SSSP)について述べる。
我々の重要な洞察は、三面体ベースの3D認識生成モデルの事前知識を十分に活用できるスケッチ認識制約を設計することである。
論文 参考訳(メタデータ) (2023-02-14T06:28:42Z) - PV3D: A 3D Generative Model for Portrait Video Generation [94.96025739097922]
我々は,多視点一貫した肖像画を合成できる最初の生成フレームワークであるPV3Dを提案する。
PV3Dは、静的ポートレートのアニメーションやビュー一貫性のあるビデオモーション編集など、多くのダウンストリームアプリケーションをサポートすることができる。
論文 参考訳(メタデータ) (2022-12-13T05:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。