論文の概要: Audio2Head: Audio-driven One-shot Talking-head Generation with Natural
Head Motion
- arxiv url: http://arxiv.org/abs/2107.09293v1
- Date: Tue, 20 Jul 2021 07:22:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 15:11:04.830306
- Title: Audio2Head: Audio-driven One-shot Talking-head Generation with Natural
Head Motion
- Title(参考訳): Audio2Head: 音声駆動のワンショットトーキングヘッドジェネレーション
- Authors: Suzhen Wang, Lincheng Li, Yu Ding, Changjie Fan, Xin Yu
- Abstract要約: 単一の参照画像から写真リアルなトーキングヘッド映像を生成するための音声駆動型トーキングヘッド手法を提案する。
動き認識型リカレントニューラルネットワーク(RNN)を用いた剛性6次元頭部運動のモデル化により,まず頭部ポーズ予測器を設計する。
そこで我々は,入力音声,頭部ポーズ,参照画像から高密度な運動場を生成する運動場生成装置を開発した。
- 参考スコア(独自算出の注目度): 34.406907667904996
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose an audio-driven talking-head method to generate photo-realistic
talking-head videos from a single reference image. In this work, we tackle two
key challenges: (i) producing natural head motions that match speech prosody,
and (ii) maintaining the appearance of a speaker in a large head motion while
stabilizing the non-face regions. We first design a head pose predictor by
modeling rigid 6D head movements with a motion-aware recurrent neural network
(RNN). In this way, the predicted head poses act as the low-frequency holistic
movements of a talking head, thus allowing our latter network to focus on
detailed facial movement generation. To depict the entire image motions arising
from audio, we exploit a keypoint based dense motion field representation.
Then, we develop a motion field generator to produce the dense motion fields
from input audio, head poses, and a reference image. As this keypoint based
representation models the motions of facial regions, head, and backgrounds
integrally, our method can better constrain the spatial and temporal
consistency of the generated videos. Finally, an image generation network is
employed to render photo-realistic talking-head videos from the estimated
keypoint based motion fields and the input reference image. Extensive
experiments demonstrate that our method produces videos with plausible head
motions, synchronized facial expressions, and stable backgrounds and
outperforms the state-of-the-art.
- Abstract(参考訳): そこで本研究では,単一の参照画像から実写的な発話頭映像を生成するための音声駆動対話頭方式を提案する。
本研究では, (i) 音声韻律にマッチする自然な頭部運動を生成すること, (ii) 顔以外の領域を安定化しつつ,大きな頭部運動における話者の出現を維持すること,の2つの課題に取り組む。
まず,動作認識型リカレントニューラルネットワーク(RNN)を用いて,剛体6次元頭部の動きをモデル化して頭部ポーズ予測器を設計する。
このように、予測された頭部ポーズは、トーキングヘッドの低周波全体運動として作用するので、後者のネットワークは、詳細な顔面運動生成に集中することができる。
音声から生じる画像の動き全体を表現するために,キーポイントに基づく高密度動き場表現を用いる。
そこで我々は,入力音声,頭部ポーズ,参照画像から高密度な運動場を生成する運動場生成装置を開発した。
このキーポイントに基づく表現は、顔領域、頭部、背景の動きを一体的にモデル化するので、生成したビデオの空間的および時間的一貫性をよりよく制約することができる。
最後に、推定キーポイントベースモーションフィールドと入力基準画像とから、画像リアリスティックなトーキングヘッド映像を描画するために、画像生成ネットワークを用いる。
広汎な実験により,本手法は頭の動き,表情の同期,背景の安定性を向上し,最先端の映像より優れることが示された。
関連論文リスト
- From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - VividTalk: One-Shot Audio-Driven Talking Head Generation Based on 3D
Hybrid Prior [28.737324182301652]
高品質な音声ヘッドビデオを生成するための2段階の汎用フレームワークを提案する。
第1段階では、非剛性表現運動と剛性頭部運動を含む2つの動作を学習することにより、音声をメッシュにマッピングする。
第2段階では,メッシュを高密度な動きに変換し,高品質なビデオフレームをフレーム単位で合成する,デュアルブランチモーションベとジェネレータを提案する。
論文 参考訳(メタデータ) (2023-12-04T12:25:37Z) - FONT: Flow-guided One-shot Talking Head Generation with Natural Head
Motions [14.205344055665414]
フロー誘導ワンショットモデルは生成した音声の頭上でのNaTuralヘッドの動きを達成する。
ヘッドポーズ予測モジュールは、ソース顔からヘッドポーズシーケンスを生成し、オーディオを駆動するように設計されている。
論文 参考訳(メタデータ) (2023-03-31T03:25:06Z) - Pose-Controllable 3D Facial Animation Synthesis using Hierarchical
Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。
提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文 参考訳(メタデータ) (2023-02-24T09:36:31Z) - Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation [54.68893964373141]
顔の生成は、これまで、追加の参照ビデオからのガイダンスなしで、頭の動きや自然な表情を作り出すのに苦労してきた。
拡散に基づく生成モデルの最近の発展は、より現実的で安定したデータ合成を可能にする。
本稿では,現実的な人間の頭部の映像を生成するために,1つのアイデンティティ画像と音声シーケンスのみを必要とする自己回帰拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-01-06T14:16:54Z) - Live Speech Portraits: Real-Time Photorealistic Talking-Head Animation [12.552355581481999]
まず,30fps以上の音声信号のみを駆動する,パーソナライズされた写真リアリスティックなトーキングヘッドアニメーションを生成するライブシステムを提案する。
第1段階はディープニューラルネットワークで、ターゲットの音声空間に特徴を投影する多様体投影と共に、ディープオーディオ特徴を抽出する。
第2段階では、投影された音声特徴から顔の動きと動きを学習する。
最終段階では、過去の予測から条件付き特徴写像を生成し、画像から画像への変換ネットワークに設定した候補画像で送信し、フォトリアリスティックレンダリングを合成する。
論文 参考訳(メタデータ) (2021-09-22T08:47:43Z) - MakeItTalk: Speaker-Aware Talking-Head Animation [49.77977246535329]
本稿では,音声を入力として1つの顔画像から表現力のある音声音声を生成する手法を提案する。
この中間表現に基づいて,本手法は全音声頭部の映像を全動作域で合成することができる。
論文 参考訳(メタデータ) (2020-04-27T17:56:15Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。