論文の概要: Breathing Life into Faces: Speech-driven 3D Facial Animation with
Natural Head Pose and Detailed Shape
- arxiv url: http://arxiv.org/abs/2310.20240v1
- Date: Tue, 31 Oct 2023 07:47:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 16:11:39.191509
- Title: Breathing Life into Faces: Speech-driven 3D Facial Animation with
Natural Head Pose and Detailed Shape
- Title(参考訳): 顔に息を吹き込む:自然な頭部と詳細な形状の3次元顔アニメーション
- Authors: Wei Zhao, Yijun Wang, Tianyu He, Lianying Yin, Jianxin Lin, Xin Jin
- Abstract要約: VividTalkerは、音声による3D顔アニメーションを促進するために設計された新しいフレームワークである。
顔のアニメーションを頭ポーズと口の動きに明確に切り離し、別々にエンコードする。
我々は,詳細な形状を持つ新しい3次元データセットを構築し,音声内容に合わせて顔の詳細を合成することを学ぶ。
- 参考スコア(独自算出の注目度): 19.431264557873117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The creation of lifelike speech-driven 3D facial animation requires a natural
and precise synchronization between audio input and facial expressions.
However, existing works still fail to render shapes with flexible head poses
and natural facial details (e.g., wrinkles). This limitation is mainly due to
two aspects: 1) Collecting training set with detailed 3D facial shapes is
highly expensive. This scarcity of detailed shape annotations hinders the
training of models with expressive facial animation. 2) Compared to mouth
movement, the head pose is much less correlated to speech content.
Consequently, concurrent modeling of both mouth movement and head pose yields
the lack of facial movement controllability. To address these challenges, we
introduce VividTalker, a new framework designed to facilitate speech-driven 3D
facial animation characterized by flexible head pose and natural facial
details. Specifically, we explicitly disentangle facial animation into head
pose and mouth movement and encode them separately into discrete latent spaces.
Then, these attributes are generated through an autoregressive process
leveraging a window-based Transformer architecture. To augment the richness of
3D facial animation, we construct a new 3D dataset with detailed shapes and
learn to synthesize facial details in line with speech content. Extensive
quantitative and qualitative experiments demonstrate that VividTalker
outperforms state-of-the-art methods, resulting in vivid and realistic
speech-driven 3D facial animation.
- Abstract(参考訳): ライフライクな音声駆動3d顔アニメーションの作成は、音声入力と表情の自然な正確な同期を必要とする。
しかし、現存する作品は、フレキシブルな頭部ポーズと自然な顔の細部(例えばしわ)で形を表現できない。
この制限は主に2つの側面による。
1) 詳細な3次元顔形状の収集訓練は高い費用がかかる。
この詳細な形状アノテーションの不足は、表現力のある顔アニメーションを用いたモデルのトレーニングを妨げる。
2) 口の動きと比較すると, 頭部のポーズは発話内容と相関しない。
したがって、口の動きと頭の位置の同時モデリングは、顔の動き制御性の欠如をもたらす。
これらの課題に対処するために,我々は,フレキシブルな頭部ポーズと自然な顔詳細を特徴とする音声駆動3d顔アニメーションを容易にするために設計された新しいフレームワークである vividtalker を紹介する。
具体的には、顔のアニメーションを頭ポーズと口の動きに明確に切り離し、個別の潜伏空間に符号化する。
次にこれらの属性は、ウィンドウベースのTransformerアーキテクチャを活用する自動回帰プロセスを通じて生成される。
3d顔アニメーションの豊かさを高めるために,詳細な形状を持つ新しい3dデータセットを構築し,音声コンテンツに合わせて顔の詳細を合成することを学ぶ。
広汎な量的および質的な実験により、VividTalkerは最先端の手法より優れており、鮮明でリアルな3D顔アニメーションが実現される。
関連論文リスト
- MMHead: Towards Fine-grained Multi-modal 3D Facial Animation [68.04052669266174]
大規模なマルチモーダル3次元顔アニメーションデータセットMMHeadを構築した。
MMHeadは、49時間の3D顔の動きシーケンス、音声、リッチな階層的なテキストアノテーションで構成されている。
MMHeadデータセットに基づいて,テキストによる3次元対話ヘッドアニメーションとテキストから3次元の顔の動き生成という,2つの新しいタスクのベンチマークを構築した。
論文 参考訳(メタデータ) (2024-10-10T09:37:01Z) - Mimic: Speaking Style Disentanglement for Speech-Driven 3D Facial
Animation [41.489700112318864]
音声駆動型3D顔アニメーションは、音声と正確に同期し、独特の話し方にマッチする鮮やかな顔アニメーションを合成することを目的としている。
本稿では,任意の発話スタイルの符号化を可能にする,革新的な発話スタイルのアンタングル化手法を提案する。
また,顔の動きから話し方や内容の絡み合った表現を学習する「textbfMimic」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-18T01:49:42Z) - 3DiFACE: Diffusion-based Speech-driven 3D Facial Animation and Editing [22.30870274645442]
3DiFACEは、音声による顔のアニメーションと編集をパーソナライズする新しい方法である。
提案手法は,既存の最先端技術より優れ,忠実度と多様性が向上した音声駆動型アニメーションを実現する。
論文 参考訳(メタデータ) (2023-12-01T19:01:05Z) - AdaMesh: Personalized Facial Expressions and Head Poses for Adaptive Speech-Driven 3D Facial Animation [49.4220768835379]
AdaMeshは、適応的な音声駆動の顔アニメーションアプローチである。
約10秒間の参照ビデオから、パーソナライズされた話し方を学ぶ。
鮮やかな表情と頭部のポーズを生成する。
論文 参考訳(メタデータ) (2023-10-11T06:56:08Z) - DF-3DFace: One-to-Many Speech Synchronized 3D Face Animation with
Diffusion [68.85904927374165]
拡散駆動型音声から3次元の顔メッシュ合成であるDF-3DFaceを提案する。
拡散に基づく音声と3次元顔の複雑な一対多関係をキャプチャする。
最先端の手法よりもリアルな顔アニメーションを同時に実現します。
論文 参考訳(メタデータ) (2023-08-23T04:14:55Z) - Audio-Driven Talking Face Generation with Diverse yet Realistic Facial
Animations [61.65012981435094]
DIRFAは、異なるが現実的な顔のアニメーションを同一の駆動音声から生成できる新しい方法である。
同一音声に対して妥当な顔のアニメーションの変動に対応するため,トランスフォーマーに基づく確率的マッピングネットワークを設計する。
DIRFAは現実的な顔のアニメーションを効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-04-18T12:36:15Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。