論文の概要: GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking
Face Generation
- arxiv url: http://arxiv.org/abs/2305.00787v1
- Date: Mon, 1 May 2023 12:24:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 13:22:16.128279
- Title: GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking
Face Generation
- Title(参考訳): GeneFace++: 汎用的で安定的なリアルタイムオーディオ駆動の3Dトーク顔生成
- Authors: Zhenhui Ye, Jinzheng He, Ziyue Jiang, Rongjie Huang, Jiawei Huang,
Jinglin Liu, Yi Ren, Xiang Yin, Zejun Ma, Zhou Zhao
- Abstract要約: 音声-リップ同期の汎用化, 画質の向上, システム効率の向上が期待できる。
NeRFは、数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため、この分野で一般的な技術となっている。
そこで我々は,これらの課題に対処するためにGeneFace++を提案し,ピッチの輪郭を補助的特徴として利用し,顔の動き予測プロセスに時間的損失を導入する。
- 参考スコア(独自算出の注目度): 71.73912454164834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating talking person portraits with arbitrary speech audio is a crucial
problem in the field of digital human and metaverse. A modern talking face
generation method is expected to achieve the goals of generalized audio-lip
synchronization, good video quality, and high system efficiency. Recently,
neural radiance field (NeRF) has become a popular rendering technique in this
field since it could achieve high-fidelity and 3D-consistent talking face
generation with a few-minute-long training video. However, there still exist
several challenges for NeRF-based methods: 1) as for the lip synchronization,
it is hard to generate a long facial motion sequence of high temporal
consistency and audio-lip accuracy; 2) as for the video quality, due to the
limited data used to train the renderer, it is vulnerable to out-of-domain
input condition and produce bad rendering results occasionally; 3) as for the
system efficiency, the slow training and inference speed of the vanilla NeRF
severely obstruct its usage in real-world applications. In this paper, we
propose GeneFace++ to handle these challenges by 1) utilizing the pitch contour
as an auxiliary feature and introducing a temporal loss in the facial motion
prediction process; 2) proposing a landmark locally linear embedding method to
regulate the outliers in the predicted motion sequence to avoid robustness
issues; 3) designing a computationally efficient NeRF-based motion-to-video
renderer to achieves fast training and real-time inference. With these
settings, GeneFace++ becomes the first NeRF-based method that achieves stable
and real-time talking face generation with generalized audio-lip
synchronization. Extensive experiments show that our method outperforms
state-of-the-art baselines in terms of subjective and objective evaluation.
Video samples are available at https://genefaceplusplus.github.io .
- Abstract(参考訳): 話し手の肖像を任意の音声で生成することは、デジタル人間とメタバースの分野において重要な問題である。
汎用的な音声・リップ同期,良質な映像品質,高システム効率を実現するために,最新のトーキングフェイス生成手法が期待されている。
近年,数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため,ニューラルレイディアンス・フィールド(NeRF)が普及している。
しかし、NeRFベースの手法にはいくつかの課題がある。
1) 唇の同期については, 時間的一貫性と音声-リップ精度の長い顔の動き列を生成することは困難である。
2)ビデオの品質については,レンダラーのトレーニングに使用するデータが少ないため,ドメイン外の入力条件に脆弱であり,時には悪いレンダリング結果が得られる。
3) システム効率に関しては,バニラ型NeRFの遅いトレーニングと推論速度が実世界のアプリケーションでの使用を著しく妨げている。
本稿では,これらの課題に対処するためにGeneFace++を提案する。
1) ピッチ輪郭を補助的特徴として利用し, 顔の動き予測プロセスに時間的損失を導入すること
2) ロバスト性問題を回避するために,予測動作系列の異常値を調整するためのランドマーク局所線形埋め込み法の提案
3)高速トレーニングとリアルタイム推論を実現するため,計算効率の良いNeRFベースのモーション・トゥ・ビデオ・レンダラーを設計する。
これらの設定により、GeneFace++は、音声-リップ同期を一般化した安定かつリアルタイムな会話顔生成を実現する最初のNeRFベースの方法となる。
実験の結果,本手法は主観的,客観的な評価において,最先端のベースラインよりも優れていた。
ビデオのサンプルはhttps://genefaceplus.github.ioで入手できる。
関連論文リスト
- RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。
第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。
第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。
この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文 参考訳(メタデータ) (2024-06-26T12:09:59Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - GeneFace: Generalized and High-Fidelity Audio-Driven 3D Talking Face
Synthesis [62.297513028116576]
GeneFace は、汎用的で高忠実な NeRF ベースの話し顔生成法である。
ヘッド・トルソ問題を解消するために,ヘッド・アウェア・トルソ・NeRFを提案する。
論文 参考訳(メタデータ) (2023-01-31T05:56:06Z) - StableFace: Analyzing and Improving Motion Stability for Talking Face
Generation [38.25025849434312]
入力音声と出力映像をブリッジする3次元顔表現を用いた最先端パイプラインに基づく動きジッタリング問題について検討する。
音声合成ビデオでは,いくつかの問題がジッタに繋がることが判明した。
論文 参考訳(メタデータ) (2022-08-29T16:56:35Z) - FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech
Synthesis [77.06890315052563]
我々は、低レイテンシで非拘束音声から高品質な音声を直接合成できる非自己回帰的エンドツーエンドモデルであるFastLTSを提案する。
実験により,本モデルは3秒の入力シーケンスにおける現在の自己回帰モデルと比較して,音声生成の19.76倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2022-07-08T10:10:39Z) - FaceFormer: Speech-Driven 3D Facial Animation with Transformers [46.8780140220063]
音声駆動の3D顔アニメーションは、人間の顔の複雑な形状と、3Dオーディオ視覚データの利用が制限されているため、難しい。
本研究では,トランスフォーマーをベースとした自動回帰モデルFaceFormerを提案し,長期音声コンテキストを符号化し,アニメーション3D顔メッシュのシーケンスを自動回帰予測する。
論文 参考訳(メタデータ) (2021-12-10T04:21:59Z) - LipSync3D: Data-Efficient Learning of Personalized 3D Talking Faces from
Video using Pose and Lighting Normalization [4.43316916502814]
音声からパーソナライズされた3D音声をアニメーションするビデオベースの学習フレームワークを提案する。
データサンプルの効率を大幅に改善する2つのトレーニング時間データ正規化を導入する。
提案手法は,現在最先端のオーディオ駆動型ビデオ再現ベンチマークを,リアリズム,リップシンク,視覚的品質スコアの点で上回っている。
論文 参考訳(メタデータ) (2021-06-08T08:56:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。