Fugu-MT 論文翻訳(概要): Emo-Avatar: Efficient Monocular Video Style Avatar through Texture Rendering

論文の概要: Emo-Avatar: Efficient Monocular Video Style Avatar through Texture Rendering

arxiv url: http://arxiv.org/abs/2402.00827v2
Date: Thu, 14 Mar 2024 05:30:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-16 01:42:38.590020
Title: Emo-Avatar: Efficient Monocular Video Style Avatar through Texture Rendering
Title（参考訳）: エモアバター(Emo-Avatar) - テクスチャレンダリングによるモノクラービデオスタイルのアバター
Authors: Pinxin Liu, Luchuan Song, Daoan Zhang, Hang Hua, Yunlong Tang, Huaijin Tu, Jiebo Luo, Chenliang Xu,
Abstract要約: 遅延ニューラルレンダリングによる効率的なモノトニックビデオスタイルアバター (Emo-Avatar) を提案する。 Emo-Avatarは、スタイルのカスタマイズ時間を、既存の方法と比較して数時間からわずか5分に短縮する。
参考スコア（独自算出の注目度）: 64.85782838199427
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Artistic video portrait generation is a significant and sought-after task in the fields of computer graphics and vision. While various methods have been developed that integrate NeRFs or StyleGANs with instructional editing models for creating and editing drivable portraits, these approaches face several challenges. They often rely heavily on large datasets, require extensive customization processes, and frequently result in reduced image quality. To address the above problems, we propose the Efficient Monotonic Video Style Avatar (Emo-Avatar) through deferred neural rendering that enhances StyleGAN's capacity for producing dynamic, drivable portrait videos. We proposed a two-stage deferred neural rendering pipeline. In the first stage, we utilize few-shot PTI initialization to initialize the StyleGAN generator through several extreme poses sampled from the video to capture the consistent representation of aligned faces from the target portrait. In the second stage, we propose a Laplacian pyramid for high-frequency texture sampling from UV maps deformed by dynamic flow of expression for motion-aware texture prior integration to provide torso features to enhance StyleGAN's ability to generate complete and upper body for portrait video rendering. Emo-Avatar reduces style customization time from hours to merely 5 minutes compared with existing methods. In addition, Emo-Avatar requires only a single reference image for editing and employs region-aware contrastive learning with semantic invariant CLIP guidance, ensuring consistent high-resolution output and identity preservation. Through both quantitative and qualitative assessments, Emo-Avatar demonstrates superior performance over existing methods in terms of training efficiency, rendering quality and editability in self- and cross-reenactment.
Abstract（参考訳）: アートビデオのポートレート生成は、コンピュータグラフィックスとビジョンの分野で重要かつ追求された課題である。 NeRFやStyleGANを統合する様々な手法が開発されているが、これらの手法はいくつかの課題に直面している。多くの場合、大きなデータセットに大きく依存し、広範囲のカスタマイズプロセスを必要とし、画像の品質を低下させる。以上の問題に対処するため,我々は,ダイナミックでドライビング可能なポートレートビデオを生成する上で,StyleGANの能力を向上する遅延ニューラルレンダリングにより,効率的なモノトニックビデオスタイルアバター(Emo-Avatar)を提案する。我々は2段階の遅延型ニューラルレンダリングパイプラインを提案した。第1段階では、数発のPTI初期化を利用して、ビデオからサンプリングされたいくつかの極端なポーズを通してStyleGANジェネレータを初期化し、ターゲットのポートレートからアライメントされた顔の一貫性のある表現をキャプチャする。第2段階では,動作認識型テクスチャの動的流れによって変形したUVマップから高頻度テクスチャサンプリングを行うためのラプラシアンピラミッドを提案する。 Emo-Avatarは、スタイルのカスタマイズ時間を、既存の方法と比較して数時間からわずか5分に短縮する。さらに、Emo-Avatarは、編集に単一の参照イメージしか必要とせず、セマンティック不変CLIPガイダンスによる地域対応のコントラスト学習を採用し、一貫性のある高解像度出力とアイデンティティ保護を実現している。 Emo-Avatarは定量評価と定性評価の両方を通じて、訓練効率、レンダリング品質、自己および横断的再現性の観点から、既存の手法よりも優れたパフォーマンスを示している。

関連論文リスト

3D Gaussian Head Avatars with Expressive Dynamic Appearances by Compact Tensorial Representations [41.303036354495816]
本稿では3次元ガウスのテクスチャ関連属性をテンソル形式でエンコードする表現的かつコンパクトな表現を提案する。我々は静的な三面体に中性表現の外観を記憶し、軽量な1次元特徴線を用いて異なる表現に対して動的テクスチャの詳細を表現する。この設計により、リアルタイムレンダリングを維持しながら正確な顔のダイナミックな詳細をキャプチャでき、ストレージコストを大幅に削減できる。
論文参考訳（メタデータ） (2025-04-21T08:50:12Z)
GazeGaussian: High-Fidelity Gaze Redirection with 3D Gaussian Splatting [15.509324745484141]
本稿では,2ストリーム3DGSモデルを用いて顔領域と眼領域を別々に表現する高忠実な視線リダイレクト手法であるGazeGaussianを提案する。 GazeGaussianは、レンダリング速度、視線リダイレクト精度、複数のデータセット間での顔合成において、既存の方法よりも優れています。
論文参考訳（メタデータ） (2024-11-20T02:15:23Z)
G-Style: Stylized Gaussian Splatting [5.363168481735954]
本稿では,G-Styleを提案する。G-Style,G-Style,G-Style,G-Style,G-Style,G-Style,G-Style,G-Style,G-Style。 G-Styleは数分で高品質なスタイリゼーションを生成し、質的にも量的にも既存の手法より優れている。
論文参考訳（メタデータ） (2024-08-28T10:43:42Z)
GaussianTalker: Speaker-specific Talking Head Synthesis via 3D Gaussian Splatting [27.699313086744237]
GaussianTalkerは3D Gaussian Splattingに基づく音声駆動音声ヘッド合成手法である。話者固有のモーショントランスレータは、普遍化音声特徴抽出により、対象話者固有の正確な唇の動きを達成する。 Dynamic Gaussian Rendererは話者固有のBlendShapesを導入し、潜在ポーズを通じて顔の詳細表現を強化する。
論文参考訳（メタデータ） (2024-04-22T09:51:43Z)
Gaussian Opacity Fields: Efficient Adaptive Surface Reconstruction in Unbounded Scenes [50.92217884840301]
Gaussian Opacity Fields (GOF)は、シーンにおける効率的で高品質で適応的な表面再構成のための新しいアプローチである。 GOFは3Dガウスのレイトレーシングに基づくボリュームレンダリングに由来する。 GOFは、表面再構成と新しいビュー合成において、既存の3DGSベースの手法を超越している。
論文参考訳（メタデータ） (2024-04-16T17:57:19Z)
Spec-Gaussian: Anisotropic View-Dependent Appearance for 3D Gaussian Splatting [55.71424195454963]
Spec-Gaussian は球面調和の代わりに異方性球面ガウス場を利用するアプローチである。実験結果から,本手法はレンダリング品質の面で既存の手法を超越していることが示された。この改良は、3D GSの適用性を高めて、特異面と異方面の複雑なシナリオを扱う。
論文参考訳（メタデータ） (2024-02-24T17:22:15Z)
Mesh-based Gaussian Splatting for Real-time Large-scale Deformation [58.18290393082119]
ユーザがリアルタイムで大きな変形で暗黙の表現を直接変形または操作することは困難である。我々は,インタラクティブな変形を可能にする新しいGSベースの手法を開発した。提案手法は,高いフレームレートで良好なレンダリング結果を維持しつつ,高品質な再構成と効率的な変形を実現する。
論文参考訳（メタデータ） (2024-02-07T12:36:54Z)
GAvatar: Animatable 3D Gaussian Avatars with Implicit Mesh Learning [60.33970027554299]
ガウススプラッティングは、明示的(メッシュ)と暗黙的(NeRF)の両方の3D表現の利点を利用する強力な3D表現として登場した。本稿では,ガウススプラッティングを利用してテキスト記述から現実的なアニマタブルなアバターを生成する。提案手法であるGAvatarは,テキストプロンプトのみを用いて,多様なアニマタブルアバターを大規模に生成する。
論文参考訳（メタデータ） (2023-12-18T18:59:12Z)
GaussianHead: High-fidelity Head Avatars with Learnable Gaussian Derivation [35.39887092268696]
本稿では, 異方性3次元ガウスモデルを用いて, 動作する人間の頭部をモデル化する枠組みを提案する。実験では,高忠実度レンダリング,再現における最先端のアプローチ,クロスアイデンティティの再現,新しいビュー合成タスクを実現できる。
論文参考訳（メタデータ） (2023-12-04T05:24:45Z)
Scaffold-GS: Structured 3D Gaussians for View-Adaptive Rendering [71.44349029439944]
最近の3次元ガウス散乱法は、最先端のレンダリング品質と速度を達成している。局所的な3Dガウス分布にアンカーポイントを用いるScaffold-GSを導入する。提案手法は,高品質なレンダリングを実現しつつ,冗長なガウスを効果的に削減できることを示す。
論文参考訳（メタデータ） (2023-11-30T17:58:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。