論文の概要: Talk3D: High-Fidelity Talking Portrait Synthesis via Personalized 3D Generative Prior
- arxiv url: http://arxiv.org/abs/2403.20153v1
- Date: Fri, 29 Mar 2024 12:49:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 15:44:18.821372
- Title: Talk3D: High-Fidelity Talking Portrait Synthesis via Personalized 3D Generative Prior
- Title(参考訳): Talk3D: パーソナライズされた3D生成先行による画像合成
- Authors: Jaehoon Ko, Kyusun Cho, Joungbin Lee, Heeji Yoon, Sangmin Lee, Sangjun Ahn, Seungryong Kim,
- Abstract要約: 本研究では,Talk3Dと呼ばれる新しい音声駆動音声ヘッド合成フレームワークを提案する。
予め訓練された3D認識生成前を効果的に活用することにより、そのもっともらしい顔のジオメトリを忠実に再構築することができる。
提案手法は,既存の手法と比較して,極端な頭部ポーズ下であっても,現実的な顔のジオメトリーの生成に優れる。
- 参考スコア(独自算出の注目度): 29.120669908374424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent methods for audio-driven talking head synthesis often optimize neural radiance fields (NeRF) on a monocular talking portrait video, leveraging its capability to render high-fidelity and 3D-consistent novel-view frames. However, they often struggle to reconstruct complete face geometry due to the absence of comprehensive 3D information in the input monocular videos. In this paper, we introduce a novel audio-driven talking head synthesis framework, called Talk3D, that can faithfully reconstruct its plausible facial geometries by effectively adopting the pre-trained 3D-aware generative prior. Given the personalized 3D generative model, we present a novel audio-guided attention U-Net architecture that predicts the dynamic face variations in the NeRF space driven by audio. Furthermore, our model is further modulated by audio-unrelated conditioning tokens which effectively disentangle variations unrelated to audio features. Compared to existing methods, our method excels in generating realistic facial geometries even under extreme head poses. We also conduct extensive experiments showing our approach surpasses state-of-the-art benchmarks in terms of both quantitative and qualitative evaluations.
- Abstract(参考訳): 近年の音声駆動音声ヘッド合成法は,高忠実度・3D一貫性の新規視野フレームを描画する能力を活用して,単眼音声ポートレートビデオ上でのニューラルレイディアンス場(NeRF)を最適化することが多い。
しかし、入力されたモノクロビデオに包括的な3D情報がないため、完全な顔形状の再構築に苦慮することが多い。
本稿では,事前学習した3D認識生成手法を効果的に活用することにより,音声駆動型音声ヘッド合成フレームワークであるTalk3Dを提案する。
パーソナライズされた3D生成モデルを考えると、音声によって駆動されるNeRF空間の動的顔変化を予測する新しい音声誘導型注意U-Netアーキテクチャを提案する。
さらに,本モデルは,音声特徴と無関係な変動を効果的に解消する,音声関連条件付きトークンによってさらに変調される。
既存の手法と比較して,本手法は,極端な頭部ポーズ下であっても,現実的な顔のジオメトリーの生成に優れる。
また、定量評価と定性評価の両方の観点から、我々のアプローチが最先端のベンチマークを上回ることを示す広範な実験を行った。
関連論文リスト
- NeRFFaceSpeech: One-shot Audio-driven 3D Talking Head Synthesis via Generative Prior [5.819784482811377]
高品質な3D対応音声ヘッドを作成できる新しい方法NeRFFaceSpeechを提案する。
本手法では,1枚の画像に対応する3次元顔特徴空間を作成できる。
また,リパインネットを導入し,その情報不足を補う。
論文 参考訳(メタデータ) (2024-05-09T13:14:06Z) - Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis [88.17520303867099]
ワンショットの3Dトーキングポートレート生成は、目に見えない画像から3Dアバターを再構成し、参照ビデオやオーディオでアニメーション化する。
本稿では,大規模な画像-平面モデルを用いて,ワンショット3D再構成能力を向上させるフレームワークであるReal3D-Potraitを提案する。
実験の結果、Real3D-Portraitは目に見えない人物を一般化し、よりリアルなトーキング・ポートレート・ビデオを生成することがわかった。
論文 参考訳(メタデータ) (2024-01-16T17:04:30Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - Pose-Controllable 3D Facial Animation Synthesis using Hierarchical
Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。
提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文 参考訳(メタデータ) (2023-02-24T09:36:31Z) - GeneFace: Generalized and High-Fidelity Audio-Driven 3D Talking Face
Synthesis [62.297513028116576]
GeneFace は、汎用的で高忠実な NeRF ベースの話し顔生成法である。
ヘッド・トルソ問題を解消するために,ヘッド・アウェア・トルソ・NeRFを提案する。
論文 参考訳(メタデータ) (2023-01-31T05:56:06Z) - Real-time Neural Radiance Talking Portrait Synthesis via Audio-spatial
Decomposition [61.6677901687009]
我々は,音声画像のリアルタイム合成を可能にする,効率的なNeRFベースのフレームワークを提案する。
提案手法は,リアルタイム・オーディオ・リップ同期音声ポートレートビデオを生成する。
論文 参考訳(メタデータ) (2022-11-22T16:03:11Z) - Learning Dynamic Facial Radiance Fields for Few-Shot Talking Head
Synthesis [90.43371339871105]
音声音声音声合成のための動的顔放射場(DFRF)を提案する。
DFRF条件は2次元外観画像上の放射界を呈示し、先行した顔の学習を行う。
実験により、DFRFは40kの反復しか持たない新しいアイデンティティのために、自然で高品質な音声駆動音声ヘッドビデオを合成できることが示された。
論文 参考訳(メタデータ) (2022-07-24T16:46:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。