論文の概要: NeRF-3DTalker: Neural Radiance Field with 3D Prior Aided Audio Disentanglement for Talking Head Synthesis
- arxiv url: http://arxiv.org/abs/2502.14178v1
- Date: Thu, 20 Feb 2025 01:16:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:26:34.079989
- Title: NeRF-3DTalker: Neural Radiance Field with 3D Prior Aided Audio Disentanglement for Talking Head Synthesis
- Title(参考訳): NeRF-3DTalker:対話頭部合成のための3次元事前支援型音声ディスタングルを用いたニューラルラジアンス場
- Authors: Xiaoxing Liu, Zhilei Liu, Chongke Bi,
- Abstract要約: トーキングヘッド合成は,音声を用いた唇同期音声ヘッドビデオの合成である。
発声頭部合成のための3次元先行支援オーディオディスタングルを用いたニューラルラジアンス場(NeRF-3DTalker)を提案する。
具体的には,3次元事前情報を用いて,自由視点で明瞭な音声頭部を合成する手法を提案する。
- 参考スコア(独自算出の注目度): 2.258901723493981
- License:
- Abstract: Talking head synthesis is to synthesize a lip-synchronized talking head video using audio. Recently, the capability of NeRF to enhance the realism and texture details of synthesized talking heads has attracted the attention of researchers. However, most current NeRF methods based on audio are exclusively concerned with the rendering of frontal faces. These methods are unable to generate clear talking heads in novel views. Another prevalent challenge in current 3D talking head synthesis is the difficulty in aligning acoustic and visual spaces, which often results in suboptimal lip-syncing of the generated talking heads. To address these issues, we propose Neural Radiance Field with 3D Prior Aided Audio Disentanglement for Talking Head Synthesis (NeRF-3DTalker). Specifically, the proposed method employs 3D prior information to synthesize clear talking heads with free views. Additionally, we propose a 3D Prior Aided Audio Disentanglement module, which is designed to disentangle the audio into two distinct categories: features related to 3D awarded speech movements and features related to speaking style. Moreover, to reposition the generated frames that are distant from the speaker's motion space in the real space, we have devised a local-global Standardized Space. This method normalizes the irregular positions in the generated frames from both global and local semantic perspectives. Through comprehensive qualitative and quantitative experiments, it has been demonstrated that our NeRF-3DTalker outperforms state-of-the-art in synthesizing realistic talking head videos, exhibiting superior image quality and lip synchronization. Project page: https://nerf-3dtalker.github.io/NeRF-3Dtalker.
- Abstract(参考訳): トーキングヘッド合成は,音声を用いた唇同期音声ヘッドビデオの合成である。
近年,合成音声ヘッドの現実性やテクスチャの詳細を向上するNeRFの能力は,研究者の注目を集めている。
しかし、音声に基づく現在のNeRF法のほとんどは、正面の顔のレンダリングに特化している。
これらの手法は、新しい視点では明瞭な話し声を生成することができない。
現在の3D音声ヘッド合成におけるもう一つの課題は、音響空間と視覚空間の整列が困難であることであり、これはしばしば生成された音声ヘッドの最適下唇同期をもたらす。
これらの課題に対処するために,対話ヘッド合成のための3次元先行補聴ディスタングルを用いたニューラルラジアンス場を提案する。
具体的には,3次元事前情報を用いて,自由視点で明瞭な音声頭部を合成する手法を提案する。
さらに,音声を2つのカテゴリーに分割する3D先行支援型音声ディアンタングメントモジュールを提案する。
さらに,実空間における話者の運動空間から離れた生成フレームを再配置するために,局所的にグローバルな標準化空間を考案した。
この方法は、大域的および局所的な意味的視点から生成されたフレーム内の不規則な位置を正規化する。
総合的な質的,定量的実験を通じて,我々のNeRF-3DTalkerは,現実的な音声ヘッドビデオの合成における最先端性能を向上し,画質と唇の同期性が向上することが実証された。
プロジェクトページ: https://nerf-3dtalker.github.io/NeRF-3Dtalker
関連論文リスト
- S^3D-NeRF: Single-Shot Speech-Driven Neural Radiance Field for High Fidelity Talking Head Synthesis [14.437741528053504]
単一ショット音声駆動ラジアンス場(S3D-NeRF)法を設計し,各アイデンティティーに対する代表的外観特徴の学習,音声による異なる顔領域の動作のモデル化,唇領域の時間的一貫性の維持という3つの課題に対処する。
我々のS3D-NeRFは、ビデオの忠実さとオーディオ-リップ同期の両方において、過去の技術を上回っています。
論文 参考訳(メタデータ) (2024-08-18T03:59:57Z) - NeRFFaceSpeech: One-shot Audio-driven 3D Talking Head Synthesis via Generative Prior [5.819784482811377]
高品質な3D対応音声ヘッドを作成できる新しい方法NeRFFaceSpeechを提案する。
本手法では,1枚の画像に対応する3次元顔特徴空間を作成できる。
また,リパインネットを導入し,その情報不足を補う。
論文 参考訳(メタデータ) (2024-05-09T13:14:06Z) - Talk3D: High-Fidelity Talking Portrait Synthesis via Personalized 3D Generative Prior [29.120669908374424]
本研究では,Talk3Dと呼ばれる新しい音声駆動音声ヘッド合成フレームワークを提案する。
予め訓練された3D認識生成前を効果的に活用することにより、そのもっともらしい顔のジオメトリを忠実に再構築することができる。
提案手法は,既存の手法と比較して,極端な頭部ポーズ下であっても,現実的な顔のジオメトリーの生成に優れる。
論文 参考訳(メタデータ) (2024-03-29T12:49:40Z) - NeRF-AD: Neural Radiance Field with Attention-based Disentanglement for
Talking Face Synthesis [2.5387791616637587]
音声によって駆動される顔合成は、多次元信号処理とマルチメディアの分野で現在研究されているホットスポットの1つである。
最近,生成した顔のリアリズムと3次元効果を高めるために,この研究領域にNeRFが導入された。
本稿では,注目型遠絡(NeRF-AD)を用いた音声合成手法を提案する。
論文 参考訳(メタデータ) (2024-01-23T08:54:10Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - GeneFace: Generalized and High-Fidelity Audio-Driven 3D Talking Face
Synthesis [62.297513028116576]
GeneFace は、汎用的で高忠実な NeRF ベースの話し顔生成法である。
ヘッド・トルソ問題を解消するために,ヘッド・アウェア・トルソ・NeRFを提案する。
論文 参考訳(メタデータ) (2023-01-31T05:56:06Z) - Real-time Neural Radiance Talking Portrait Synthesis via Audio-spatial
Decomposition [61.6677901687009]
我々は,音声画像のリアルタイム合成を可能にする,効率的なNeRFベースのフレームワークを提案する。
提案手法は,リアルタイム・オーディオ・リップ同期音声ポートレートビデオを生成する。
論文 参考訳(メタデータ) (2022-11-22T16:03:11Z) - Learning Dynamic Facial Radiance Fields for Few-Shot Talking Head
Synthesis [90.43371339871105]
音声音声音声合成のための動的顔放射場(DFRF)を提案する。
DFRF条件は2次元外観画像上の放射界を呈示し、先行した顔の学習を行う。
実験により、DFRFは40kの反復しか持たない新しいアイデンティティのために、自然で高品質な音声駆動音声ヘッドビデオを合成できることが示された。
論文 参考訳(メタデータ) (2022-07-24T16:46:03Z) - AD-NeRF: Audio Driven Neural Radiance Fields for Talking Head Synthesis [55.24336227884039]
高忠実な会話ヘッドビデオを生成するための新しいフレームワークを紹介します。
音声入力と映像出力のギャップを埋めるために,ニューラルシーン表現ネットワークを用いる。
本フレームワークは,(1)高い忠実度と自然な結果を生み出すことができ,(2)音声信号,視線方向,背景画像の自由な調整をサポートする。
論文 参考訳(メタデータ) (2021-03-20T02:58:13Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。