論文の概要: VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time
- arxiv url: http://arxiv.org/abs/2404.10667v1
- Date: Tue, 16 Apr 2024 15:43:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 16:14:57.631244
- Title: VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time
- Title(参考訳): VASA-1: リアルタイムに生み出す音声駆動型音声通話システム
- Authors: Sicheng Xu, Guojun Chen, Yu-Xiao Guo, Jiaolong Yang, Chong Li, Zhenyu Zang, Yizhong Zhang, Xin Tong, Baining Guo,
- Abstract要約: 静止画像と音声音声クリップを1つずつ与えることで,視覚的情緒的スキル(VAS)をアピールするライフライクな発話顔を生成するためのフレームワークであるVASAを紹介した。
VASA-1は、音声と精巧に同期する唇の動きを発生させるだけでなく、顔のニュアンスや自然な頭部の動きを捉えることができる。
- 参考スコア(独自算出の注目度): 35.43018966749148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce VASA, a framework for generating lifelike talking faces with appealing visual affective skills (VAS) given a single static image and a speech audio clip. Our premiere model, VASA-1, is capable of not only producing lip movements that are exquisitely synchronized with the audio, but also capturing a large spectrum of facial nuances and natural head motions that contribute to the perception of authenticity and liveliness. The core innovations include a holistic facial dynamics and head movement generation model that works in a face latent space, and the development of such an expressive and disentangled face latent space using videos. Through extensive experiments including evaluation on a set of new metrics, we show that our method significantly outperforms previous methods along various dimensions comprehensively. Our method not only delivers high video quality with realistic facial and head dynamics but also supports the online generation of 512x512 videos at up to 40 FPS with negligible starting latency. It paves the way for real-time engagements with lifelike avatars that emulate human conversational behaviors.
- Abstract(参考訳): 静止画像と音声音声クリップを1つずつ与えることで,視覚的情緒的スキル(VAS)をアピールするライフライクな発話顔を生成するためのフレームワークであるVASAを紹介した。
我々のプレミアモデルであるVASA-1は、音声と精巧に同期した唇の動きを生成できるだけでなく、顔のニュアンスや自然な頭部の動きを捉え、真正性や活気の知覚に寄与する。
中心となるイノベーションは、顔潜伏空間で機能する全体論的顔力学と頭部運動生成モデル、そしてビデオを使った表現力のある非絡み合った顔潜伏空間の開発である。
提案手法は,新しい指標の集合に対する評価を含む広範囲な実験を通じて,様々な次元で従来手法よりも大幅に優れていたことを示す。
提案手法は,現実的な顔と頭部のダイナミックスで高画質の映像を提供するだけでなく,最大40FPSの512x512ビデオのオンライン生成をサポートする。
それは、人間の会話行動をエミュレートする、人生のようなアバターとのリアルタイムエンゲージメントの道を開く。
関連論文リスト
- Universal Facial Encoding of Codec Avatars from VR Headsets [32.60236093340087]
コンシューマー向けVRヘッドセットのヘッドマウントカメラ(HMC)を用いて,光リアルアバターをリアルタイムにアニメーションする手法を提案する。
本稿では,実行時の効率向上に最小限のコストで精度を高める軽量な式キャリブレーション機構を提案する。
論文 参考訳(メタデータ) (2024-07-17T22:08:15Z) - EMO: Emote Portrait Alive -- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions [18.364859748601887]
本稿では,直接音声合成手法を用いた新しいフレームワーク EMO を提案する。
本手法は,映像全体を通してシームレスなフレーム遷移と一貫したアイデンティティ保存を保証し,高い表現力とライフスタイルのアニメーションを実現する。
論文 参考訳(メタデータ) (2024-02-27T13:10:11Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - Audio-Driven Talking Face Generation with Diverse yet Realistic Facial
Animations [61.65012981435094]
DIRFAは、異なるが現実的な顔のアニメーションを同一の駆動音声から生成できる新しい方法である。
同一音声に対して妥当な顔のアニメーションの変動に対応するため,トランスフォーマーに基づく確率的マッピングネットワークを設計する。
DIRFAは現実的な顔のアニメーションを効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-04-18T12:36:15Z) - GeneFace: Generalized and High-Fidelity Audio-Driven 3D Talking Face
Synthesis [62.297513028116576]
GeneFace は、汎用的で高忠実な NeRF ベースの話し顔生成法である。
ヘッド・トルソ問題を解消するために,ヘッド・アウェア・トルソ・NeRFを提案する。
論文 参考訳(メタデータ) (2023-01-31T05:56:06Z) - Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation [54.68893964373141]
顔の生成は、これまで、追加の参照ビデオからのガイダンスなしで、頭の動きや自然な表情を作り出すのに苦労してきた。
拡散に基づく生成モデルの最近の発展は、より現実的で安定したデータ合成を可能にする。
本稿では,現実的な人間の頭部の映像を生成するために,1つのアイデンティティ画像と音声シーケンスのみを必要とする自己回帰拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-01-06T14:16:54Z) - Audio2Head: Audio-driven One-shot Talking-head Generation with Natural
Head Motion [34.406907667904996]
単一の参照画像から写真リアルなトーキングヘッド映像を生成するための音声駆動型トーキングヘッド手法を提案する。
動き認識型リカレントニューラルネットワーク(RNN)を用いた剛性6次元頭部運動のモデル化により,まず頭部ポーズ予測器を設計する。
そこで我々は,入力音声,頭部ポーズ,参照画像から高密度な運動場を生成する運動場生成装置を開発した。
論文 参考訳(メタデータ) (2021-07-20T07:22:42Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。