論文の概要: AD-NeRF: Audio Driven Neural Radiance Fields for Talking Head Synthesis
- arxiv url: http://arxiv.org/abs/2103.11078v1
- Date: Sat, 20 Mar 2021 02:58:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-23 14:35:57.718533
- Title: AD-NeRF: Audio Driven Neural Radiance Fields for Talking Head Synthesis
- Title(参考訳): AD-NeRF:音声駆動型頭部合成のためのニューラルラジアンス場
- Authors: Yudong Guo, Keyu Chen, Sen Liang, Yongjin Liu, Hujun Bao, Juyong Zhang
- Abstract要約: 高忠実な会話ヘッドビデオを生成するための新しいフレームワークを紹介します。
音声入力と映像出力のギャップを埋めるために,ニューラルシーン表現ネットワークを用いる。
本フレームワークは,(1)高い忠実度と自然な結果を生み出すことができ,(2)音声信号,視線方向,背景画像の自由な調整をサポートする。
- 参考スコア(独自算出の注目度): 55.24336227884039
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating high-fidelity talking head video by fitting with the input audio
sequence is a challenging problem that receives considerable attentions
recently. In this paper, we address this problem with the aid of neural scene
representation networks. Our method is completely different from existing
methods that rely on intermediate representations like 2D landmarks or 3D face
models to bridge the gap between audio input and video output. Specifically,
the feature of input audio signal is directly fed into a conditional implicit
function to generate a dynamic neural radiance field, from which a
high-fidelity talking-head video corresponding to the audio signal is
synthesized using volume rendering. Another advantage of our framework is that
not only the head (with hair) region is synthesized as previous methods did,
but also the upper body is generated via two individual neural radiance fields.
Experimental results demonstrate that our novel framework can (1) produce
high-fidelity and natural results, and (2) support free adjustment of audio
signals, viewing directions, and background images.
- Abstract(参考訳): 入力音声シーケンスに適合して高忠実度音声ヘッドビデオを生成することは,近年注目されている課題である。
本稿では,神経シーン表現ネットワークを用いてこの問題に対処する。
提案手法は,音声入力と映像出力のギャップを埋めるため,2次元ランドマークや3次元顔モデルなどの中間表現に依存する既存の手法とは全く異なる。
具体的には、入力音声信号の特徴を直接条件付き暗黙関数に入力して動的ニューラル放射場を生成し、音信号に対応する高忠実なトーキングヘッド映像をボリュームレンダリングを用いて合成する。
この枠組みのもう1つの利点は、頭(毛髪)領域が以前の方法と同様に合成されるだけでなく、上体が2つの個々の神経放射野を介して生成されることである。
実験結果から,本フレームワークは(1)高忠実で自然な結果が得られ,(2)音声信号,視聴方向,背景画像の自由な調整が可能であることが示された。
関連論文リスト
- S^3D-NeRF: Single-Shot Speech-Driven Neural Radiance Field for High Fidelity Talking Head Synthesis [14.437741528053504]
単一ショット音声駆動ラジアンス場(S3D-NeRF)法を設計し,各アイデンティティーに対する代表的外観特徴の学習,音声による異なる顔領域の動作のモデル化,唇領域の時間的一貫性の維持という3つの課題に対処する。
我々のS3D-NeRFは、ビデオの忠実さとオーディオ-リップ同期の両方において、過去の技術を上回っています。
論文 参考訳(メタデータ) (2024-08-18T03:59:57Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - NeRFFaceSpeech: One-shot Audio-driven 3D Talking Head Synthesis via Generative Prior [5.819784482811377]
高品質な3D対応音声ヘッドを作成できる新しい方法NeRFFaceSpeechを提案する。
本手法では,1枚の画像に対応する3次元顔特徴空間を作成できる。
また,リパインネットを導入し,その情報不足を補う。
論文 参考訳(メタデータ) (2024-05-09T13:14:06Z) - NeRF-AD: Neural Radiance Field with Attention-based Disentanglement for
Talking Face Synthesis [2.5387791616637587]
音声によって駆動される顔合成は、多次元信号処理とマルチメディアの分野で現在研究されているホットスポットの1つである。
最近,生成した顔のリアリズムと3次元効果を高めるために,この研究領域にNeRFが導入された。
本稿では,注目型遠絡(NeRF-AD)を用いた音声合成手法を提案する。
論文 参考訳(メタデータ) (2024-01-23T08:54:10Z) - AE-NeRF: Audio Enhanced Neural Radiance Field for Few Shot Talking Head
Synthesis [42.203900183584665]
本稿ではAE-NeRF(Audio Enhanced Neural Radiance Field)を提案する。
AE-NeRFは、限られたトレーニングセットやトレーニングイテレーションであっても、画像の忠実さ、オーディオ-リップ同期、一般化能力の最先端を超越している。
論文 参考訳(メタデータ) (2023-12-18T04:14:38Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - GeneFace: Generalized and High-Fidelity Audio-Driven 3D Talking Face
Synthesis [62.297513028116576]
GeneFace は、汎用的で高忠実な NeRF ベースの話し顔生成法である。
ヘッド・トルソ問題を解消するために,ヘッド・アウェア・トルソ・NeRFを提案する。
論文 参考訳(メタデータ) (2023-01-31T05:56:06Z) - BinauralGrad: A Two-Stage Conditional Diffusion Probabilistic Model for
Binaural Audio Synthesis [129.86743102915986]
我々は、音声を共通部分へ分解することで、異なる視点から合成プロセスを定式化する。
拡散モデルを備えた新しい2段階フレームワークであるBinauralGradを提案する。
実験結果から,BinauralGradは対象評価指標と対象評価指標の両方において,既存のベースラインよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-05-30T02:09:26Z) - Semantic-Aware Implicit Neural Audio-Driven Video Portrait Generation [61.8546794105462]
我々は,一組のNeRFを用いて,繊細な音声駆動のポートレートを生成するセマンティック・アウェア・ポーティング・ポートレート・ネRF(SSP-NeRF)を提案する。
まず,音声によるボリュームレンダリングを容易にする解析機能を備えたSemantic-Aware Dynamic Ray Smplingモジュールを提案する。
1つの統合神経放射場におけるポートレートレンダリングを可能にするため、Torso変形モジュールは、大規模な非剛性胴体運動を安定させるように設計されている。
論文 参考訳(メタデータ) (2022-01-19T18:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。