論文の概要: AE-NeRF: Audio Enhanced Neural Radiance Field for Few Shot Talking Head
Synthesis
- arxiv url: http://arxiv.org/abs/2312.10921v1
- Date: Mon, 18 Dec 2023 04:14:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 21:31:15.477188
- Title: AE-NeRF: Audio Enhanced Neural Radiance Field for Few Shot Talking Head
Synthesis
- Title(参考訳): AE-NeRF:頭部合成のための音声強調ニューラル放射場
- Authors: Dongze Li, Kang Zhao, Wei Wang, Bo Peng, Yingya Zhang, Jing Dong and
Tieniu Tan
- Abstract要約: 本稿ではAE-NeRF(Audio Enhanced Neural Radiance Field)を提案する。
AE-NeRFは、限られたトレーニングセットやトレーニングイテレーションであっても、画像の忠実さ、オーディオ-リップ同期、一般化能力の最先端を超越している。
- 参考スコア(独自算出の注目度): 42.203900183584665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-driven talking head synthesis is a promising topic with wide
applications in digital human, film making and virtual reality. Recent
NeRF-based approaches have shown superiority in quality and fidelity compared
to previous studies. However, when it comes to few-shot talking head
generation, a practical scenario where only few seconds of talking video is
available for one identity, two limitations emerge: 1) they either have no base
model, which serves as a facial prior for fast convergence, or ignore the
importance of audio when building the prior; 2) most of them overlook the
degree of correlation between different face regions and audio, e.g., mouth is
audio related, while ear is audio independent. In this paper, we present Audio
Enhanced Neural Radiance Field (AE-NeRF) to tackle the above issues, which can
generate realistic portraits of a new speaker with fewshot dataset.
Specifically, we introduce an Audio Aware Aggregation module into the feature
fusion stage of the reference scheme, where the weight is determined by the
similarity of audio between reference and target image. Then, an Audio-Aligned
Face Generation strategy is proposed to model the audio related and audio
independent regions respectively, with a dual-NeRF framework. Extensive
experiments have shown AE-NeRF surpasses the state-of-the-art on image
fidelity, audio-lip synchronization, and generalization ability, even in
limited training set or training iterations.
- Abstract(参考訳): 音声駆動の頭部合成は、デジタル人間、映画製作、仮想現実の幅広い応用において有望な話題である。
最近のNeRFベースのアプローチは、以前の研究と比べて品質と忠実性に優れていた。
しかし、数秒の対話ヘッドジェネレーションでは、1つのアイデンティティで数秒のビデオしか利用できない現実的なシナリオとして、2つの制限が現れる。
1) ベースモデルがなく,ファストコンバージェンスに先行する顔として機能するか,あるいは事前構築時の音声の重要性を無視するか。
2) それらの多くは異なる顔領域と音声の相関関係の度合いを見落としている。例えば、口は音声関連であり、耳は音声に依存しない。
本稿では,この課題に対処するためにAE-NeRF(Audio Enhanced Neural Radiance Field)を提案する。
具体的には、参照方式の特徴融合段階にオーディオ認識集約モジュールを導入し、参照画像と対象画像のオーディオの類似性によって重みが決定される。
次に,デュアル・ナーフ・フレームワークを用いて,音声関連領域と音声独立領域をそれぞれモデル化するために,音声対応顔生成戦略を提案する。
AE-NeRFは、限られたトレーニングセットやトレーニングイテレーションであっても、画像の忠実さ、オーディオ-リップ同期、一般化能力に最先端を超越している。
関連論文リスト
- KAN-Based Fusion of Dual-Domain for Audio-Driven Facial Landmarks Generation [8.111156834055821]
音声による会話顔の再構築は、教育、医療、オンライン会話、バーチャルアシスタント、バーチャルリアリティーなどの分野に大きく貢献する。
近年、研究者たちは顔のポーズ、首、肩など、顔全体を構築する新しいアプローチを提案している。
音声からランドマークを生成する頑健なモデルであるKFusion of Dual-Domainを提案する。
論文 参考訳(メタデータ) (2024-09-09T05:20:02Z) - S^3D-NeRF: Single-Shot Speech-Driven Neural Radiance Field for High Fidelity Talking Head Synthesis [14.437741528053504]
単一ショット音声駆動ラジアンス場(S3D-NeRF)法を設計し,各アイデンティティーに対する代表的外観特徴の学習,音声による異なる顔領域の動作のモデル化,唇領域の時間的一貫性の維持という3つの課題に対処する。
我々のS3D-NeRFは、ビデオの忠実さとオーディオ-リップ同期の両方において、過去の技術を上回っています。
論文 参考訳(メタデータ) (2024-08-18T03:59:57Z) - NeRF-AD: Neural Radiance Field with Attention-based Disentanglement for
Talking Face Synthesis [2.5387791616637587]
音声によって駆動される顔合成は、多次元信号処理とマルチメディアの分野で現在研究されているホットスポットの1つである。
最近,生成した顔のリアリズムと3次元効果を高めるために,この研究領域にNeRFが導入された。
本稿では,注目型遠絡(NeRF-AD)を用いた音声合成手法を提案する。
論文 参考訳(メタデータ) (2024-01-23T08:54:10Z) - GeneFace: Generalized and High-Fidelity Audio-Driven 3D Talking Face
Synthesis [62.297513028116576]
GeneFace は、汎用的で高忠実な NeRF ベースの話し顔生成法である。
ヘッド・トルソ問題を解消するために,ヘッド・アウェア・トルソ・NeRFを提案する。
論文 参考訳(メタデータ) (2023-01-31T05:56:06Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Semantic-Aware Implicit Neural Audio-Driven Video Portrait Generation [61.8546794105462]
我々は,一組のNeRFを用いて,繊細な音声駆動のポートレートを生成するセマンティック・アウェア・ポーティング・ポートレート・ネRF(SSP-NeRF)を提案する。
まず,音声によるボリュームレンダリングを容易にする解析機能を備えたSemantic-Aware Dynamic Ray Smplingモジュールを提案する。
1つの統合神経放射場におけるポートレートレンダリングを可能にするため、Torso変形モジュールは、大規模な非剛性胴体運動を安定させるように設計されている。
論文 参考訳(メタデータ) (2022-01-19T18:54:41Z) - AD-NeRF: Audio Driven Neural Radiance Fields for Talking Head Synthesis [55.24336227884039]
高忠実な会話ヘッドビデオを生成するための新しいフレームワークを紹介します。
音声入力と映像出力のギャップを埋めるために,ニューラルシーン表現ネットワークを用いる。
本フレームワークは,(1)高い忠実度と自然な結果を生み出すことができ,(2)音声信号,視線方向,背景画像の自由な調整をサポートする。
論文 参考訳(メタデータ) (2021-03-20T02:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。