論文の概要: Emo-Avatar: Efficient Monocular Video Style Avatar through Texture Rendering
- arxiv url: http://arxiv.org/abs/2402.00827v2
- Date: Thu, 14 Mar 2024 05:30:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-16 01:42:38.590020
- Title: Emo-Avatar: Efficient Monocular Video Style Avatar through Texture Rendering
- Title(参考訳): エモアバター(Emo-Avatar) - テクスチャレンダリングによるモノクラービデオスタイルのアバター
- Authors: Pinxin Liu, Luchuan Song, Daoan Zhang, Hang Hua, Yunlong Tang, Huaijin Tu, Jiebo Luo, Chenliang Xu,
- Abstract要約: 遅延ニューラルレンダリングによる効率的なモノトニックビデオスタイルアバター (Emo-Avatar) を提案する。
Emo-Avatarは、スタイルのカスタマイズ時間を、既存の方法と比較して数時間からわずか5分に短縮する。
- 参考スコア(独自算出の注目度): 64.85782838199427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artistic video portrait generation is a significant and sought-after task in the fields of computer graphics and vision. While various methods have been developed that integrate NeRFs or StyleGANs with instructional editing models for creating and editing drivable portraits, these approaches face several challenges. They often rely heavily on large datasets, require extensive customization processes, and frequently result in reduced image quality. To address the above problems, we propose the Efficient Monotonic Video Style Avatar (Emo-Avatar) through deferred neural rendering that enhances StyleGAN's capacity for producing dynamic, drivable portrait videos. We proposed a two-stage deferred neural rendering pipeline. In the first stage, we utilize few-shot PTI initialization to initialize the StyleGAN generator through several extreme poses sampled from the video to capture the consistent representation of aligned faces from the target portrait. In the second stage, we propose a Laplacian pyramid for high-frequency texture sampling from UV maps deformed by dynamic flow of expression for motion-aware texture prior integration to provide torso features to enhance StyleGAN's ability to generate complete and upper body for portrait video rendering. Emo-Avatar reduces style customization time from hours to merely 5 minutes compared with existing methods. In addition, Emo-Avatar requires only a single reference image for editing and employs region-aware contrastive learning with semantic invariant CLIP guidance, ensuring consistent high-resolution output and identity preservation. Through both quantitative and qualitative assessments, Emo-Avatar demonstrates superior performance over existing methods in terms of training efficiency, rendering quality and editability in self- and cross-reenactment.
- Abstract(参考訳): アートビデオのポートレート生成は、コンピュータグラフィックスとビジョンの分野で重要かつ追求された課題である。
NeRFやStyleGANを統合する様々な手法が開発されているが、これらの手法はいくつかの課題に直面している。
多くの場合、大きなデータセットに大きく依存し、広範囲のカスタマイズプロセスを必要とし、画像の品質を低下させる。
以上の問題に対処するため,我々は,ダイナミックでドライビング可能なポートレートビデオを生成する上で,StyleGANの能力を向上する遅延ニューラルレンダリングにより,効率的なモノトニックビデオスタイルアバター(Emo-Avatar)を提案する。
我々は2段階の遅延型ニューラルレンダリングパイプラインを提案した。
第1段階では、数発のPTI初期化を利用して、ビデオからサンプリングされたいくつかの極端なポーズを通してStyleGANジェネレータを初期化し、ターゲットのポートレートからアライメントされた顔の一貫性のある表現をキャプチャする。
第2段階では,動作認識型テクスチャの動的流れによって変形したUVマップから高頻度テクスチャサンプリングを行うためのラプラシアンピラミッドを提案する。
Emo-Avatarは、スタイルのカスタマイズ時間を、既存の方法と比較して数時間からわずか5分に短縮する。
さらに、Emo-Avatarは、編集に単一の参照イメージしか必要とせず、セマンティック不変CLIPガイダンスによる地域対応のコントラスト学習を採用し、一貫性のある高解像度出力とアイデンティティ保護を実現している。
Emo-Avatarは定量評価と定性評価の両方を通じて、訓練効率、レンダリング品質、自己および横断的再現性の観点から、既存の手法よりも優れたパフォーマンスを示している。
関連論文リスト
- Customize-A-Video: One-Shot Motion Customization of Text-to-Video
Diffusion Models [50.65904921917907]
本研究では,単一参照ビデオからの動作をモデル化し,空間的・時間的変化のある新しい主題やシーンに適応するCustomize-A-Videoを提案する。
提案手法は、カスタムビデオ生成や編集、映像の外観のカスタマイズ、複数動作の組み合わせなど、様々な下流タスクに容易に拡張できる。
論文 参考訳(メタデータ) (2024-02-22T18:38:48Z) - Towards 4D Human Video Stylization [56.33756124829298]
本稿では,4D(3Dおよび時間)の映像スタイリングに向けての第一歩として,スタイル変換,新しいビュー合成,人間アニメーションについて述べる。
我々はNeural Radiance Fields(NeRF)を利用してビデオを表現する。
我々のフレームワークは、斬新なポーズや視点に対応する能力を独自に拡張し、クリエイティブなヒューマンビデオスタイリングのための汎用的なツールとなる。
論文 参考訳(メタデータ) (2023-12-07T08:58:33Z) - InvertAvatar: Incremental GAN Inversion for Generalized Head Avatars [39.84321605007352]
本稿では,複数フレームからの忠実度向上を目的としたアルゴリズムを用いて,アバター復元性能を向上させる新しいフレームワークを提案する。
本アーキテクチャでは,画素対応画像-画像変換を重要視し,観測空間と標準空間の対応を学習する必要性を緩和する。
提案手法は,1ショットと数ショットのアバターアニメーションタスクにおける最先端の性能を示す。
論文 参考訳(メタデータ) (2023-12-03T18:59:15Z) - FLARE: Fast Learning of Animatable and Relightable Mesh Avatars [64.48254296523977]
私たちのゴールは、幾何学的に正確で、リアルで、楽しい、現在のレンダリングシステムと互換性のあるビデオから、パーソナライズ可能な3Dアバターを効率的に学習することです。
単眼ビデオからアニマタブルアバターとリライトブルアバターの作成を可能にする技術であるFLAREを紹介する。
論文 参考訳(メタデータ) (2023-10-26T16:13:00Z) - VToonify: Controllable High-Resolution Portrait Video Style Transfer [103.54337984566877]
制御可能な高解像度のポートレートビデオスタイル転送のための新しいVToonifyフレームワークを提案する。
エンコーダによって抽出されたマルチスケールのコンテンツ特徴に基づいて,StyleGANの中間層と高解像度層を利用して芸術的な肖像画を描画する。
我々のフレームワークは、既存のStyleGANベースの画像トーン化モデルと互換性があり、それらをビデオトーン化に拡張し、色と強度の柔軟なスタイル制御のためにこれらのモデルの魅力的な特徴を継承する。
論文 参考訳(メタデータ) (2022-09-22T17:59:10Z) - Encode-in-Style: Latent-based Video Encoding using StyleGAN2 [0.7614628596146599]
本稿では,データ効率のよい高品質な映像再生を実現するために,エンドツーエンドの顔画像符号化手法を提案する。
このアプローチは、StyleGAN2イメージインバージョンとマルチステージの非線形遅延空間編集に基づいて、入力ビデオにほぼ匹敵するビデオを生成する。
論文 参考訳(メタデータ) (2022-03-28T05:44:19Z) - StyleHEAT: One-Shot High-Resolution Editable Talking Face Generation via
Pretrained StyleGAN [49.917296433657484]
ワンショット・トーキング・フェイス・ジェネレーションは、任意のポートレート画像から高品質なトーキング・フェイス・ビデオを合成することを目的としている。
本研究では,事前学習したStyleGANの潜在特徴空間について検討し,優れた空間変換特性について考察する。
本稿では,事前学習したStyleGANをベースとした,強力な機能セットを実現する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-08T12:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。