論文の概要: DFA-NeRF: Personalized Talking Head Generation via Disentangled Face
Attributes Neural Rendering
- arxiv url: http://arxiv.org/abs/2201.00791v1
- Date: Mon, 3 Jan 2022 18:23:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-04 15:13:22.265585
- Title: DFA-NeRF: Personalized Talking Head Generation via Disentangled Face
Attributes Neural Rendering
- Title(参考訳): DFA-NeRF: 対向顔属性によるパーソナライズされたトーキングヘッド生成
- Authors: Shunyu Yao, RuiZhe Zhong, Yichao Yan, Guangtao Zhai, Xiaokang Yang
- Abstract要約: 本稿では,高忠実度音声ヘッド生成のためのニューラルラジアンス場に基づくフレームワークを提案する。
具体的には、神経放射野は唇運動の特徴とパーソナライズされた属性を2つの不絡状態として捉えている。
本手法は最先端の手法よりもはるかに優れた結果が得られることを示す。
- 参考スコア(独自算出の注目度): 69.9557427451339
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recent advances in deep neural networks have made it possible to render
high-quality images, generating photo-realistic and personalized talking head
remains challenging. With given audio, the key to tackling this task is
synchronizing lip movement and simultaneously generating personalized
attributes like head movement and eye blink. In this work, we observe that the
input audio is highly correlated to lip motion while less correlated to other
personalized attributes (e.g., head movements). Inspired by this, we propose a
novel framework based on neural radiance field to pursue high-fidelity and
personalized talking head generation. Specifically, neural radiance field takes
lip movements features and personalized attributes as two disentangled
conditions, where lip movements are directly predicted from the audio inputs to
achieve lip-synchronized generation. In the meanwhile, personalized attributes
are sampled from a probabilistic model, where we design a Transformer-based
variational autoencoder sampled from Gaussian Process to learn plausible and
natural-looking head pose and eye blink. Experiments on several benchmarks
demonstrate that our method achieves significantly better results than
state-of-the-art methods.
- Abstract(参考訳): 近年のディープニューラルネットワークの進歩により、高品質な画像をレンダリングできるようになったが、写真リアリスティックでパーソナライズされた対話ヘッドの生成は依然として困難である。
与えられたオーディオでは、このタスクに取り組む鍵は唇の動きを同期させ、頭の動きや目まぶのようなパーソナライズされた属性を同時に生成することです。
本研究では、入力音声が唇の動きと強く相関するが、他のパーソナライズされた属性(例えば頭部の動き)との相関が低いことを観察する。
そこで本研究では,高忠実度・パーソナライズされた対話ヘッド生成を追求するニューラルラディアンス場に基づく新しいフレームワークを提案する。
特に、ニューラル・ラジアンス・フィールドは、唇運動の特徴とパーソナライズされた属性を、音声入力から直接唇運動を予測して唇同期生成を達成する2つの不連続状態として捉えている。
一方、パーソナライズされた属性は確率モデルからサンプリングされ、ガウシアンプロセスからサンプリングされたトランスフォーマーベースの変分オートエンコーダを設計し、可塑性で自然な頭部ポーズとアイリンクを学習する。
いくつかのベンチマーク実験により,本手法は最先端手法よりもはるかに優れた結果が得られることが示された。
関連論文リスト
- High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。
第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。
第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。
この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文 参考訳(メタデータ) (2024-06-26T12:09:59Z) - SAiD: Speech-driven Blendshape Facial Animation with Diffusion [6.4271091365094515]
大規模なビジュアルオーディオデータセットが不足しているため、音声駆動の3D顔アニメーションは困難である。
拡散モデル (SAiD) を用いた音声駆動型3次元顔アニメーションを提案する。
論文 参考訳(メタデータ) (2023-12-25T04:40:32Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - GeneFace: Generalized and High-Fidelity Audio-Driven 3D Talking Face
Synthesis [62.297513028116576]
GeneFace は、汎用的で高忠実な NeRF ベースの話し顔生成法である。
ヘッド・トルソ問題を解消するために,ヘッド・アウェア・トルソ・NeRFを提案する。
論文 参考訳(メタデータ) (2023-01-31T05:56:06Z) - FACIAL: Synthesizing Dynamic Talking Face with Implicit Attribute
Learning [23.14865405847467]
本稿では,音声信号を入力とし,短いターゲット映像クリップを参照として,話し顔を生成する手法を提案する。
本発明の方法は、入力された音声信号と同期した自然な唇の動き、頭部ポーズ、および目の点滅で、対象の顔の写実的な映像を合成する。
実験結果とユーザスタディにより,本手法は,最先端の手法よりも優れた品質で,現実的な音声ビデオを生成することができることが示された。
論文 参考訳(メタデータ) (2021-08-18T02:10:26Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。