論文の概要: Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose
- arxiv url: http://arxiv.org/abs/2002.10137v2
- Date: Thu, 5 Mar 2020 10:06:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 04:33:45.791452
- Title: Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose
- Title(参考訳): 学習型パーソナライズド・ヘッドポーズを用いた音声駆動型顔映像生成
- Authors: Ran Yi, Zipeng Ye, Juyong Zhang, Hujun Bao, Yong-Jin Liu
- Abstract要約: 本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
- 参考スコア(独自算出の注目度): 67.31838207805573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world talking faces often accompany with natural head movement. However,
most existing talking face video generation methods only consider facial
animation with fixed head pose. In this paper, we address this problem by
proposing a deep neural network model that takes an audio signal A of a source
person and a very short video V of a target person as input, and outputs a
synthesized high-quality talking face video with personalized head pose (making
use of the visual information in V), expression and lip synchronization (by
considering both A and V). The most challenging issue in our work is that
natural poses often cause in-plane and out-of-plane head rotations, which makes
synthesized talking face video far from realistic. To address this challenge,
we reconstruct 3D face animation and re-render it into synthesized frames. To
fine tune these frames into realistic ones with smooth background transition,
we propose a novel memory-augmented GAN module. By first training a general
mapping based on a publicly available dataset and fine-tuning the mapping using
the input short video of target person, we develop an effective strategy that
only requires a small number of frames (about 300 frames) to learn personalized
talking behavior including head pose. Extensive experiments and two user
studies show that our method can generate high-quality (i.e., personalized head
movements, expressions and good lip synchronization) talking face videos, which
are naturally looking with more distinguishing head movement effects than the
state-of-the-art methods.
- Abstract(参考訳): 現実世界の会話は、しばしば自然な頭の動きを伴う。
しかし,既存の顔画像生成手法の多くは,頭部を固定した顔のアニメーションのみを考慮している。
本稿では、音源の音声信号Aと対象者の非常に短い映像Vを入力として取り込んだディープニューラルネットワークモデルを提案し、パーソナライズされた頭部ポーズ(Vにおける視覚情報の利用)、表情と唇の同期(AとVの両方を考慮した)による合成された高品質な会話顔映像を出力する。
私たちの研究で最も難しい問題は、自然ポーズが平面内および平面外頭部回転を引き起こすことが多いことです。
この課題に対処するために,3次元顔アニメーションを再構成し,合成フレームに再レンダリングする。
これらのフレームをスムーズな背景遷移を伴う現実的なフレームに微調整するために,メモリ拡張GANモジュールを提案する。
まず、一般公開されたデータセットに基づいて一般マッピングを訓練し、対象者の入力したショートビデオを用いてマッピングを微調整することで、頭部ポーズを含むパーソナライズされた会話行動を学ぶために、少数のフレーム(約300フレーム)しか必要としない効果的な戦略を開発する。
広汎な実験と2つのユーザスタディにより、我々の手法は高品質(パーソナライズされた頭部の動き、表情、良質な唇の同期)な会話映像を生成できることが示されている。
関連論文リスト
- Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis [88.17520303867099]
ワンショットの3Dトーキングポートレート生成は、目に見えない画像から3Dアバターを再構成し、参照ビデオやオーディオでアニメーション化する。
本稿では,大規模な画像-平面モデルを用いて,ワンショット3D再構成能力を向上させるフレームワークであるReal3D-Potraitを提案する。
実験の結果、Real3D-Portraitは目に見えない人物を一般化し、よりリアルなトーキング・ポートレート・ビデオを生成することがわかった。
論文 参考訳(メタデータ) (2024-01-16T17:04:30Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - FACIAL: Synthesizing Dynamic Talking Face with Implicit Attribute
Learning [23.14865405847467]
本稿では,音声信号を入力とし,短いターゲット映像クリップを参照として,話し顔を生成する手法を提案する。
本発明の方法は、入力された音声信号と同期した自然な唇の動き、頭部ポーズ、および目の点滅で、対象の顔の写実的な映像を合成する。
実験結果とユーザスタディにより,本手法は,最先端の手法よりも優れた品質で,現実的な音声ビデオを生成することができることが示された。
論文 参考訳(メタデータ) (2021-08-18T02:10:26Z) - Audio2Head: Audio-driven One-shot Talking-head Generation with Natural
Head Motion [34.406907667904996]
単一の参照画像から写真リアルなトーキングヘッド映像を生成するための音声駆動型トーキングヘッド手法を提案する。
動き認識型リカレントニューラルネットワーク(RNN)を用いた剛性6次元頭部運動のモデル化により,まず頭部ポーズ予測器を設計する。
そこで我々は,入力音声,頭部ポーズ,参照画像から高密度な運動場を生成する運動場生成装置を開発した。
論文 参考訳(メタデータ) (2021-07-20T07:22:42Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z) - Head2HeadFS: Video-based Head Reenactment with Few-shot Learning [64.46913473391274]
ヘッド再アクティベーションは、ヘッドポーズ全体をソースの人からターゲットに転送することを目的とした挑戦的なタスクです。
頭部再生のための新しい適応性パイプラインであるhead2headfsを提案する。
当社のビデオベースのレンダリングネットワークは、ほんの数サンプルを使用して、数ショットの学習戦略の下で微調整されます。
論文 参考訳(メタデータ) (2021-03-30T10:19:41Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z) - Talking-head Generation with Rhythmic Head Motion [46.6897675583319]
本稿では,ハイブリッド埋め込みモジュールと非線形合成モジュールを備えた3次元認識型生成ネットワークを提案する。
提案手法は, 自然な頭部運動を伴う制御可能, フォトリアリスティック, 時間的コヒーレントなトーキングヘッドビデオを実現する。
論文 参考訳(メタデータ) (2020-07-16T18:13:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。