論文の概要: VividTalk: One-Shot Audio-Driven Talking Head Generation Based on 3D
Hybrid Prior
- arxiv url: http://arxiv.org/abs/2312.01841v2
- Date: Thu, 7 Dec 2023 03:14:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 11:32:33.204150
- Title: VividTalk: One-Shot Audio-Driven Talking Head Generation Based on 3D
Hybrid Prior
- Title(参考訳): VividTalk:3Dハイブリッドによるワンショット音声駆動型トーキングヘッド
- Authors: Xusen Sun, Longhao Zhang, Hao Zhu, Peng Zhang, Bang Zhang, Xinya Ji,
Kangneng Zhou, Daiheng Gao, Liefeng Bo, Xun Cao
- Abstract要約: 高品質な音声ヘッドビデオを生成するための2段階の汎用フレームワークを提案する。
第1段階では、非剛性表現運動と剛性頭部運動を含む2つの動作を学習することにより、音声をメッシュにマッピングする。
第2段階では,メッシュを高密度な動きに変換し,高品質なビデオフレームをフレーム単位で合成する,デュアルブランチモーションベとジェネレータを提案する。
- 参考スコア(独自算出の注目度): 28.737324182301652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-driven talking head generation has drawn much attention in recent
years, and many efforts have been made in lip-sync, expressive facial
expressions, natural head pose generation, and high video quality. However, no
model has yet led or tied on all these metrics due to the one-to-many mapping
between audio and motion. In this paper, we propose VividTalk, a two-stage
generic framework that supports generating high-visual quality talking head
videos with all the above properties. Specifically, in the first stage, we map
the audio to mesh by learning two motions, including non-rigid expression
motion and rigid head motion. For expression motion, both blendshape and vertex
are adopted as the intermediate representation to maximize the representation
ability of the model. For natural head motion, a novel learnable head pose
codebook with a two-phase training mechanism is proposed. In the second stage,
we proposed a dual branch motion-vae and a generator to transform the meshes
into dense motion and synthesize high-quality video frame-by-frame. Extensive
experiments show that the proposed VividTalk can generate high-visual quality
talking head videos with lip-sync and realistic enhanced by a large margin, and
outperforms previous state-of-the-art works in objective and subjective
comparisons.
- Abstract(参考訳): 近年,音声駆動型音声ヘッド生成が注目され,リップシンク,表情表現,自然な頭部ポーズ生成,高画質など多くの取り組みがなされている。
しかし、音声とモーションの1対1マッピングのため、これらの指標全てを導いたり結び付けたりしたモデルはまだない。
本稿では,高画質な音声ヘッドビデオ生成を支援する2段階の汎用フレームワークであるVividTalkを提案する。
特に第1段階では、非剛性表現運動と剛性頭部運動を含む2つの動作を学習することにより、音声をメッシュにマッピングする。
表現運動では、ブレンド形状と頂点の両方を中間表現として、モデルの表現能力を最大化する。
自然な頭部運動には,二相訓練機構を備えた新しい学習可能な頭部ポーズコードブックが提案されている。
第2段階では,メッシュを高密度な動きに変換し,高品質なビデオフレームをフレーム単位で合成する,デュアルブランチモーションベとジェネレータを提案する。
広範な実験により,提案するvividtalkは,リップシンクによる高画質な対話型ヘッドビデオを生成することができ,先行研究の客観的・主観的比較よりも優れていることが示された。
関連論文リスト
- DAWN: Dynamic Frame Avatar with Non-autoregressive Diffusion Framework for Talking Head Video Generation [50.66658181705527]
本稿では,動的長大映像のオール・アット・オンス生成を可能にするフレームワークであるDAWNを提案する。
DAWNは,(1)潜在動作空間における音声駆動型顔力学生成,(2)音声駆動型頭部ポーズと点滅生成の2つの主要成分から構成される。
本手法は, 唇の動きを正確に表現し, 自然なポーズ・瞬き動作を特徴とする実写映像と鮮明な映像を生成する。
論文 参考訳(メタデータ) (2024-10-17T16:32:36Z) - Landmark-guided Diffusion Model for High-fidelity and Temporally Coherent Talking Head Generation [22.159117464397806]
本稿では2段階拡散モデルを提案する。
第1段階では、与えられた音声に基づいて、同期された顔のランドマークを生成する。
第二段階では、これらの生成されたランドマークは、口のジッタ問題を最適化し、高忠実で、よく同期し、時間的に一貫性のあるトーキーヘッドビデオを生成することを目的として、デノナイジングプロセスにおける条件として機能する。
論文 参考訳(メタデータ) (2024-08-03T10:19:38Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - A Comprehensive Multi-scale Approach for Speech and Dynamics Synchrony
in Talking Head Generation [0.0]
音声と頭部の動きの短期的・長期的相関をよりよく扱うために,マルチスケールの音声-視覚同期損失とマルチスケールの自己回帰的GANを提案する。
我々のジェネレータは顔のランドマーク領域で動作しており、これは標準的な低次元の頭部表現である。
論文 参考訳(メタデータ) (2023-07-04T08:29:59Z) - High-Fidelity and Freely Controllable Talking Head Video Generation [31.08828907637289]
本稿では,頭部ポーズと表情を自由に制御できる高忠実な音声ヘッドビデオを生成する新しいモデルを提案する。
顔の歪みを伴わずに効果的に動きを伝達する動き認識機能アライメントモジュールを新たに導入する。
我々は,挑戦的データセットのモデルを評価し,その最先端性能を実証する。
論文 参考訳(メタデータ) (2023-04-20T09:02:41Z) - Audio2Head: Audio-driven One-shot Talking-head Generation with Natural
Head Motion [34.406907667904996]
単一の参照画像から写真リアルなトーキングヘッド映像を生成するための音声駆動型トーキングヘッド手法を提案する。
動き認識型リカレントニューラルネットワーク(RNN)を用いた剛性6次元頭部運動のモデル化により,まず頭部ポーズ予測器を設計する。
そこで我々は,入力音声,頭部ポーズ,参照画像から高密度な運動場を生成する運動場生成装置を開発した。
論文 参考訳(メタデータ) (2021-07-20T07:22:42Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z) - Talking-head Generation with Rhythmic Head Motion [46.6897675583319]
本稿では,ハイブリッド埋め込みモジュールと非線形合成モジュールを備えた3次元認識型生成ネットワークを提案する。
提案手法は, 自然な頭部運動を伴う制御可能, フォトリアリスティック, 時間的コヒーレントなトーキングヘッドビデオを実現する。
論文 参考訳(メタデータ) (2020-07-16T18:13:40Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。