論文の概要: Emo-Avatar: Efficient Monocular Video Style Avatar through Texture
Rendering
- arxiv url: http://arxiv.org/abs/2402.00827v1
- Date: Thu, 1 Feb 2024 18:14:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 13:59:41.625363
- Title: Emo-Avatar: Efficient Monocular Video Style Avatar through Texture
Rendering
- Title(参考訳): emo-avatar:テクスチャレンダリングによる効率的な単眼ビデオスタイルのアバター
- Authors: Pinxin Liu, Luchuan Song, Daoan Zhang, Hang Hua, Yunlong Tang, Huaijin
Tu, Jiebo Luo, Chenliang Xu
- Abstract要約: 遅延ニューラルレンダリングによる効率的なモノトニックビデオスタイルアバター (Emo-Avatar) を提案する。
Emo-Avatarは、スタイルのカスタマイズ時間を、既存の方法と比較して数時間からわずか5分に短縮する。
- 参考スコア(独自算出の注目度): 67.65126842112775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artistic video portrait generation is a significant and sought-after task in
the fields of computer graphics and vision. While various methods have been
developed that integrate NeRFs or StyleGANs with instructional editing models
for creating and editing drivable portraits, these approaches face several
challenges. They often rely heavily on large datasets, require extensive
customization processes, and frequently result in reduced image quality. To
address the above problems, we propose the Efficient Monotonic Video Style
Avatar (Emo-Avatar) through deferred neural rendering that enhances StyleGAN's
capacity for producing dynamic, drivable portrait videos. We proposed a
two-stage deferred neural rendering pipeline. In the first stage, we utilize
few-shot PTI initialization to initialize the StyleGAN generator through
several extreme poses sampled from the video to capture the consistent
representation of aligned faces from the target portrait. In the second stage,
we propose a Laplacian pyramid for high-frequency texture sampling from UV maps
deformed by dynamic flow of expression for motion-aware texture prior
integration to provide torso features to enhance StyleGAN's ability to generate
complete and upper body for portrait video rendering. Emo-Avatar reduces style
customization time from hours to merely 5 minutes compared with existing
methods. In addition, Emo-Avatar requires only a single reference image for
editing and employs region-aware contrastive learning with semantic invariant
CLIP guidance, ensuring consistent high-resolution output and identity
preservation. Through both quantitative and qualitative assessments, Emo-Avatar
demonstrates superior performance over existing methods in terms of training
efficiency, rendering quality and editability in self- and cross-reenactment.
- Abstract(参考訳): アートビデオのポートレート生成は、コンピュータグラフィックスとビジョンの分野で重要かつ追求された課題である。
NeRFやStyleGANを統合する様々な手法が開発されているが、これらの手法はいくつかの課題に直面している。
それらは多くの場合、大きなデータセットに大きく依存し、広範なカスタマイズプロセスを必要とし、しばしば画像品質が低下する。
上記の問題に対処するため,我々は,スタイルガンのダイナミックでドリブルなポートレートビデオ生成能力を高める遅延ニューラルネットワークレンダリングにより,効率的なモノトニックビデオスタイルアバター(emo-avatar)を提案する。
我々は2段階の遅延ニューラルレンダリングパイプラインを提案した。
第1段階では、数発のPTI初期化を利用して、ビデオからサンプリングされたいくつかの極端なポーズを通してStyleGANジェネレータを初期化する。
第2段階では,動作認識型テクスチャの動的流れによって変形したUVマップから高頻度テクスチャサンプリングを行うためのラプラシアンピラミッドを提案する。
Emo-Avatarは、スタイルのカスタマイズ時間を、既存の方法と比較して数時間からわずか5分に短縮する。
さらに、Emo-Avatarは、編集に単一の参照イメージしか必要とせず、セマンティック不変CLIPガイダンスによる地域対応のコントラスト学習を採用し、一貫性のある高解像度出力とアイデンティティ保護を実現している。
Emo-Avatarは定量評価と定性評価の両方を通じて、訓練効率、レンダリング品質、自己および横断的再現性の観点から、既存の手法よりも優れたパフォーマンスを示している。
関連論文リスト
- GazeGaussian: High-Fidelity Gaze Redirection with 3D Gaussian Splatting [15.509324745484141]
本稿では,2ストリーム3DGSモデルを用いて顔領域と眼領域を別々に表現する高忠実な視線リダイレクト手法であるGazeGaussianを提案する。
GazeGaussianは、レンダリング速度、視線リダイレクト精度、複数のデータセット間での顔合成において、既存の方法よりも優れています。
論文 参考訳(メタデータ) (2024-11-20T02:15:23Z) - G-Style: Stylized Gaussian Splatting [5.363168481735954]
本稿では,G-Styleを提案する。G-Style,G-Style,G-Style,G-Style,G-Style,G-Style,G-Style,G-Style,G-Style。
G-Styleは数分で高品質なスタイリゼーションを生成し、質的にも量的にも既存の手法より優れている。
論文 参考訳(メタデータ) (2024-08-28T10:43:42Z) - GaussianTalker: Speaker-specific Talking Head Synthesis via 3D Gaussian Splatting [27.699313086744237]
GaussianTalkerは3D Gaussian Splattingに基づく音声駆動音声ヘッド合成手法である。
話者固有のモーショントランスレータは、普遍化音声特徴抽出により、対象話者固有の正確な唇の動きを達成する。
Dynamic Gaussian Rendererは話者固有のBlendShapesを導入し、潜在ポーズを通じて顔の詳細表現を強化する。
論文 参考訳(メタデータ) (2024-04-22T09:51:43Z) - Gaussian Opacity Fields: Efficient Adaptive Surface Reconstruction in Unbounded Scenes [50.92217884840301]
Gaussian Opacity Fields (GOF)は、シーンにおける効率的で高品質で適応的な表面再構成のための新しいアプローチである。
GOFは3Dガウスのレイトレーシングに基づくボリュームレンダリングに由来する。
GOFは、表面再構成と新しいビュー合成において、既存の3DGSベースの手法を超越している。
論文 参考訳(メタデータ) (2024-04-16T17:57:19Z) - Spec-Gaussian: Anisotropic View-Dependent Appearance for 3D Gaussian Splatting [55.71424195454963]
Spec-Gaussian は球面調和の代わりに異方性球面ガウス場を利用するアプローチである。
実験結果から,本手法はレンダリング品質の面で既存の手法を超越していることが示された。
この改良は、3D GSの適用性を高めて、特異面と異方面の複雑なシナリオを扱う。
論文 参考訳(メタデータ) (2024-02-24T17:22:15Z) - Mesh-based Gaussian Splatting for Real-time Large-scale Deformation [58.18290393082119]
ユーザがリアルタイムで大きな変形で暗黙の表現を直接変形または操作することは困難である。
我々は,インタラクティブな変形を可能にする新しいGSベースの手法を開発した。
提案手法は,高いフレームレートで良好なレンダリング結果を維持しつつ,高品質な再構成と効率的な変形を実現する。
論文 参考訳(メタデータ) (2024-02-07T12:36:54Z) - GAvatar: Animatable 3D Gaussian Avatars with Implicit Mesh Learning [60.33970027554299]
ガウススプラッティングは、明示的(メッシュ)と暗黙的(NeRF)の両方の3D表現の利点を利用する強力な3D表現として登場した。
本稿では,ガウススプラッティングを利用してテキスト記述から現実的なアニマタブルなアバターを生成する。
提案手法であるGAvatarは,テキストプロンプトのみを用いて,多様なアニマタブルアバターを大規模に生成する。
論文 参考訳(メタデータ) (2023-12-18T18:59:12Z) - GaussianHead: High-fidelity Head Avatars with Learnable Gaussian Derivation [35.39887092268696]
本稿では, 異方性3次元ガウスモデルを用いて, 動作する人間の頭部をモデル化する枠組みを提案する。
実験では,高忠実度レンダリング,再現における最先端のアプローチ,クロスアイデンティティの再現,新しいビュー合成タスクを実現できる。
論文 参考訳(メタデータ) (2023-12-04T05:24:45Z) - Scaffold-GS: Structured 3D Gaussians for View-Adaptive Rendering [71.44349029439944]
最近の3次元ガウス散乱法は、最先端のレンダリング品質と速度を達成している。
局所的な3Dガウス分布にアンカーポイントを用いるScaffold-GSを導入する。
提案手法は,高品質なレンダリングを実現しつつ,冗長なガウスを効果的に削減できることを示す。
論文 参考訳(メタデータ) (2023-11-30T17:58:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。