論文の概要: NeRF-AD: Neural Radiance Field with Attention-based Disentanglement for
Talking Face Synthesis
- arxiv url: http://arxiv.org/abs/2401.12568v1
- Date: Tue, 23 Jan 2024 08:54:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 16:35:08.175169
- Title: NeRF-AD: Neural Radiance Field with Attention-based Disentanglement for
Talking Face Synthesis
- Title(参考訳): NeRF-AD: 発話顔合成のための意図に基づく絡み合いを持つニューラルラジアンス場
- Authors: Chongke Bi, Xiaoxing Liu, Zhilei Liu
- Abstract要約: 音声によって駆動される顔合成は、多次元信号処理とマルチメディアの分野で現在研究されているホットスポットの1つである。
最近,生成した顔のリアリズムと3次元効果を高めるために,この研究領域にNeRFが導入された。
本稿では,注目型遠絡(NeRF-AD)を用いた音声合成手法を提案する。
- 参考スコア(独自算出の注目度): 2.5387791616637587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Talking face synthesis driven by audio is one of the current research
hotspots in the fields of multidimensional signal processing and multimedia.
Neural Radiance Field (NeRF) has recently been brought to this research field
in order to enhance the realism and 3D effect of the generated faces. However,
most existing NeRF-based methods either burden NeRF with complex learning tasks
while lacking methods for supervised multimodal feature fusion, or cannot
precisely map audio to the facial region related to speech movements. These
reasons ultimately result in existing methods generating inaccurate lip shapes.
This paper moves a portion of NeRF learning tasks ahead and proposes a talking
face synthesis method via NeRF with attention-based disentanglement (NeRF-AD).
In particular, an Attention-based Disentanglement module is introduced to
disentangle the face into Audio-face and Identity-face using speech-related
facial action unit (AU) information. To precisely regulate how audio affects
the talking face, we only fuse the Audio-face with audio feature. In addition,
AU information is also utilized to supervise the fusion of these two
modalities. Extensive qualitative and quantitative experiments demonstrate that
our NeRF-AD outperforms state-of-the-art methods in generating realistic
talking face videos, including image quality and lip synchronization. To view
video results, please refer to https://xiaoxingliu02.github.io/NeRF-AD.
- Abstract(参考訳): 音声による音声合成は、多次元信号処理とマルチメディアの分野で現在研究されているホットスポットの1つである。
ニューラル・ラジアンス・フィールド(NeRF)は近年,生成した顔のリアリズムと3次元効果を高めるために,この分野に導入されている。
しかし、既存のNeRFベースのほとんどの手法は、教師付きマルチモーダル特徴融合法を欠いている一方で、複雑な学習タスクでNeRFを負担するか、音声を音声の動きに関連する顔面領域に正確にマッピングできないかのいずれかである。
これらの理由により、既存の方法が不正確な唇の形を作り出す結果となった。
本稿では,NeRF学習タスクの一部を先進的に進めるとともに,注意に基づく絡み込み(NeRF-AD)を用いた音声合成手法を提案する。
特に、音声関連顔アクションユニット(AU)情報を用いて、顔を音声顔とアイデンティティ顔に切り離すために、アテンションベースのディスタングルメントモジュールを導入する。
音声が音声にどう影響するかを正確に調節するために、私たちはオーディオ機能でAudio-faceを融合するだけです。
さらに、これらの2つのモードの融合を監督するために、AU情報も利用される。
我々のNeRF-ADは、画像の品質や唇の同期など、現実的な会話ビデオを生成する上で、最先端の手法よりも優れています。
ビデオ結果を見るには、https://xiaoxingliu02.github.io/NeRF-ADを参照してください。
関連論文リスト
- S^3D-NeRF: Single-Shot Speech-Driven Neural Radiance Field for High Fidelity Talking Head Synthesis [14.437741528053504]
単一ショット音声駆動ラジアンス場(S3D-NeRF)法を設計し,各アイデンティティーに対する代表的外観特徴の学習,音声による異なる顔領域の動作のモデル化,唇領域の時間的一貫性の維持という3つの課題に対処する。
我々のS3D-NeRFは、ビデオの忠実さとオーディオ-リップ同期の両方において、過去の技術を上回っています。
論文 参考訳(メタデータ) (2024-08-18T03:59:57Z) - 3D Visibility-aware Generalizable Neural Radiance Fields for Interacting
Hands [51.305421495638434]
ニューラル放射場(NeRF)は、シーン、オブジェクト、人間の3D表現を約束する。
本稿では,手動操作のための一般化可能な視認可能なNeRFフレームワークを提案する。
Interhand2.6Mデータセットの実験により、提案したVA-NeRFは従来のNeRFよりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2024-01-02T00:42:06Z) - AE-NeRF: Audio Enhanced Neural Radiance Field for Few Shot Talking Head
Synthesis [42.203900183584665]
本稿ではAE-NeRF(Audio Enhanced Neural Radiance Field)を提案する。
AE-NeRFは、限られたトレーニングセットやトレーニングイテレーションであっても、画像の忠実さ、オーディオ-リップ同期、一般化能力の最先端を超越している。
論文 参考訳(メタデータ) (2023-12-18T04:14:38Z) - GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking
Face Generation [71.73912454164834]
音声-リップ同期の汎用化, 画質の向上, システム効率の向上が期待できる。
NeRFは、数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため、この分野で一般的な技術となっている。
そこで我々は,これらの課題に対処するためにGeneFace++を提案し,ピッチの輪郭を補助的特徴として利用し,顔の動き予測プロセスに時間的損失を導入する。
論文 参考訳(メタデータ) (2023-05-01T12:24:09Z) - GeneFace: Generalized and High-Fidelity Audio-Driven 3D Talking Face
Synthesis [62.297513028116576]
GeneFace は、汎用的で高忠実な NeRF ベースの話し顔生成法である。
ヘッド・トルソ問題を解消するために,ヘッド・アウェア・トルソ・NeRFを提案する。
論文 参考訳(メタデータ) (2023-01-31T05:56:06Z) - Learning Dynamic Facial Radiance Fields for Few-Shot Talking Head
Synthesis [90.43371339871105]
音声音声音声合成のための動的顔放射場(DFRF)を提案する。
DFRF条件は2次元外観画像上の放射界を呈示し、先行した顔の学習を行う。
実験により、DFRFは40kの反復しか持たない新しいアイデンティティのために、自然で高品質な音声駆動音声ヘッドビデオを合成できることが示された。
論文 参考訳(メタデータ) (2022-07-24T16:46:03Z) - Semantic-Aware Implicit Neural Audio-Driven Video Portrait Generation [61.8546794105462]
我々は,一組のNeRFを用いて,繊細な音声駆動のポートレートを生成するセマンティック・アウェア・ポーティング・ポートレート・ネRF(SSP-NeRF)を提案する。
まず,音声によるボリュームレンダリングを容易にする解析機能を備えたSemantic-Aware Dynamic Ray Smplingモジュールを提案する。
1つの統合神経放射場におけるポートレートレンダリングを可能にするため、Torso変形モジュールは、大規模な非剛性胴体運動を安定させるように設計されている。
論文 参考訳(メタデータ) (2022-01-19T18:54:41Z) - AD-NeRF: Audio Driven Neural Radiance Fields for Talking Head Synthesis [55.24336227884039]
高忠実な会話ヘッドビデオを生成するための新しいフレームワークを紹介します。
音声入力と映像出力のギャップを埋めるために,ニューラルシーン表現ネットワークを用いる。
本フレームワークは,(1)高い忠実度と自然な結果を生み出すことができ,(2)音声信号,視線方向,背景画像の自由な調整をサポートする。
論文 参考訳(メタデータ) (2021-03-20T02:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。