論文の概要: GeneFace: Generalized and High-Fidelity Audio-Driven 3D Talking Face
Synthesis
- arxiv url: http://arxiv.org/abs/2301.13430v1
- Date: Tue, 31 Jan 2023 05:56:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-01 17:23:21.428484
- Title: GeneFace: Generalized and High-Fidelity Audio-Driven 3D Talking Face
Synthesis
- Title(参考訳): GeneFace: 汎用的で高忠実なオーディオ駆動型3Dトーキング顔合成
- Authors: Zhenhui Ye, Ziyue Jiang, Yi Ren, Jinglin Liu, JinZheng He, Zhou Zhao
- Abstract要約: GeneFace は、汎用的で高忠実な NeRF ベースの話し顔生成法である。
ヘッド・トルソ問題を解消するために,ヘッド・アウェア・トルソ・NeRFを提案する。
- 参考スコア(独自算出の注目度): 62.297513028116576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating photo-realistic video portrait with arbitrary speech audio is a
crucial problem in film-making and virtual reality. Recently, several works
explore the usage of neural radiance field in this task to improve 3D realness
and image fidelity. However, the generalizability of previous NeRF-based
methods to out-of-domain audio is limited by the small scale of training data.
In this work, we propose GeneFace, a generalized and high-fidelity NeRF-based
talking face generation method, which can generate natural results
corresponding to various out-of-domain audio. Specifically, we learn a
variaitional motion generator on a large lip-reading corpus, and introduce a
domain adaptative post-net to calibrate the result. Moreover, we learn a
NeRF-based renderer conditioned on the predicted facial motion. A head-aware
torso-NeRF is proposed to eliminate the head-torso separation problem.
Extensive experiments show that our method achieves more generalized and
high-fidelity talking face generation compared to previous methods.
- Abstract(参考訳): 任意の音声によるフォトリアリスティックな映像のポートレートの生成は、映画製作や仮想現実において重要な問題である。
近年,3次元現実性と画像の忠実性を改善するために,この課題における神経放射場の利用について検討している。
しかし,領域外音声に対する従来のnrf方式の一般化は,小規模のトレーニングデータによって制限される。
本研究では,様々なドメイン外オーディオに対応する自然な結果を生成することができる汎用かつ高忠実なNeRFベースの音声合成手法であるGeneFaceを提案する。
具体的には,大口読唇コーパス上で可変運動生成器を学習し,その結果を校正するドメイン適応ポストネットを導入する。
さらに、予測された顔の動きに基づいて、NeRFベースのレンダラーを学習する。
頭部トルソ分離問題を解消するために頭部対応トルソナーフを提案する。
広範な実験により,従来の手法と比較して,より一般化し,高忠実な発話面生成が可能となった。
関連論文リスト
- S^3D-NeRF: Single-Shot Speech-Driven Neural Radiance Field for High Fidelity Talking Head Synthesis [14.437741528053504]
単一ショット音声駆動ラジアンス場(S3D-NeRF)法を設計し,各アイデンティティーに対する代表的外観特徴の学習,音声による異なる顔領域の動作のモデル化,唇領域の時間的一貫性の維持という3つの課題に対処する。
我々のS3D-NeRFは、ビデオの忠実さとオーディオ-リップ同期の両方において、過去の技術を上回っています。
論文 参考訳(メタデータ) (2024-08-18T03:59:57Z) - NeRFFaceSpeech: One-shot Audio-driven 3D Talking Head Synthesis via Generative Prior [5.819784482811377]
高品質な3D対応音声ヘッドを作成できる新しい方法NeRFFaceSpeechを提案する。
本手法では,1枚の画像に対応する3次元顔特徴空間を作成できる。
また,リパインネットを導入し,その情報不足を補う。
論文 参考訳(メタデータ) (2024-05-09T13:14:06Z) - Talk3D: High-Fidelity Talking Portrait Synthesis via Personalized 3D Generative Prior [29.120669908374424]
本研究では,Talk3Dと呼ばれる新しい音声駆動音声ヘッド合成フレームワークを提案する。
予め訓練された3D認識生成前を効果的に活用することにより、そのもっともらしい顔のジオメトリを忠実に再構築することができる。
提案手法は,既存の手法と比較して,極端な頭部ポーズ下であっても,現実的な顔のジオメトリーの生成に優れる。
論文 参考訳(メタデータ) (2024-03-29T12:49:40Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking
Face Generation [71.73912454164834]
音声-リップ同期の汎用化, 画質の向上, システム効率の向上が期待できる。
NeRFは、数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため、この分野で一般的な技術となっている。
そこで我々は,これらの課題に対処するためにGeneFace++を提案し,ピッチの輪郭を補助的特徴として利用し,顔の動き予測プロセスに時間的損失を導入する。
論文 参考訳(メタデータ) (2023-05-01T12:24:09Z) - Learning Dynamic Facial Radiance Fields for Few-Shot Talking Head
Synthesis [90.43371339871105]
音声音声音声合成のための動的顔放射場(DFRF)を提案する。
DFRF条件は2次元外観画像上の放射界を呈示し、先行した顔の学習を行う。
実験により、DFRFは40kの反復しか持たない新しいアイデンティティのために、自然で高品質な音声駆動音声ヘッドビデオを合成できることが示された。
論文 参考訳(メタデータ) (2022-07-24T16:46:03Z) - Semantic-Aware Implicit Neural Audio-Driven Video Portrait Generation [61.8546794105462]
我々は,一組のNeRFを用いて,繊細な音声駆動のポートレートを生成するセマンティック・アウェア・ポーティング・ポートレート・ネRF(SSP-NeRF)を提案する。
まず,音声によるボリュームレンダリングを容易にする解析機能を備えたSemantic-Aware Dynamic Ray Smplingモジュールを提案する。
1つの統合神経放射場におけるポートレートレンダリングを可能にするため、Torso変形モジュールは、大規模な非剛性胴体運動を安定させるように設計されている。
論文 参考訳(メタデータ) (2022-01-19T18:54:41Z) - DFA-NeRF: Personalized Talking Head Generation via Disentangled Face
Attributes Neural Rendering [69.9557427451339]
本稿では,高忠実度音声ヘッド生成のためのニューラルラジアンス場に基づくフレームワークを提案する。
具体的には、神経放射野は唇運動の特徴とパーソナライズされた属性を2つの不絡状態として捉えている。
本手法は最先端の手法よりもはるかに優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-03T18:23:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。