論文の概要: Pose-Controllable 3D Facial Animation Synthesis using Hierarchical
Audio-Vertex Attention
- arxiv url: http://arxiv.org/abs/2302.12532v1
- Date: Fri, 24 Feb 2023 09:36:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-27 14:04:46.200673
- Title: Pose-Controllable 3D Facial Animation Synthesis using Hierarchical
Audio-Vertex Attention
- Title(参考訳): 階層型オーディオバーテックスによるポーズ制御可能な3次元顔アニメーション合成
- Authors: Bin Liu, Xiaolin Wei, Bo Li, Junjie Cao, Yu-Kun Lai
- Abstract要約: 階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。
提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
- 参考スコア(独自算出の注目度): 52.63080543011595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most of the existing audio-driven 3D facial animation methods suffered from
the lack of detailed facial expression and head pose, resulting in
unsatisfactory experience of human-robot interaction. In this paper, a novel
pose-controllable 3D facial animation synthesis method is proposed by utilizing
hierarchical audio-vertex attention. To synthesize real and detailed
expression, a hierarchical decomposition strategy is proposed to encode the
audio signal into both a global latent feature and a local vertex-wise control
feature. Then the local and global audio features combined with vertex spatial
features are used to predict the final consistent facial animation via a graph
convolutional neural network by fusing the intrinsic spatial topology structure
of the face model and the corresponding semantic feature of the audio. To
accomplish pose-controllable animation, we introduce a novel pose attribute
augmentation method by utilizing the 2D talking face technique. Experimental
results indicate that the proposed method can produce more realistic facial
expressions and head posture movements. Qualitative and quantitative
experiments show that the proposed method achieves competitive performance
against state-of-the-art methods.
- Abstract(参考訳): 既存の音声駆動の3D顔アニメーション手法のほとんどは、詳細な表情と頭部ポーズの欠如に悩まされ、人間とロボットの相互作用に満足できない経験をもたらした。
本稿では,階層型音声頂点を用いたポーズ制御可能な3次元顔アニメーション合成法を提案する。
実かつ詳細な表現を合成するために,音声信号をグローバル潜在特徴と局所頂点制御特徴の両方に符号化する階層的分解戦略を提案する。
次に、局所音声特徴と頂点空間特徴とを組み合わせたグローバル音声特徴を用いて、顔モデルの固有空間トポロジ構造と対応する音声の意味特徴とを融合させて、グラフ畳み込みニューラルネットワークを介して最終的な一貫した顔アニメーションを予測する。
ポーズ制御可能なアニメーションを実現するために,2次元音声合成技術を用いてポーズ属性増強手法を提案する。
実験の結果,提案手法はよりリアルな表情と頭部姿勢運動を生成できることが示唆された。
定性的かつ定量的な実験により,提案手法は最先端の手法と競合する性能を示す。
関連論文リスト
- KMTalk: Speech-Driven 3D Facial Animation with Key Motion Embedding [19.15471840100407]
キーモーション埋め込みを用いた音声系列から3次元顔の動きを合成する新しい手法を提案する。
本手法は,言語に基づくキーモーション獲得とモーダル間動作完了の2つのモジュールを通じて,言語的およびデータ駆動の先行情報を統合する。
後者は、キーモーションを音声機能によって案内される3D音声のフルシーケンスに拡張し、時間的コヒーレンスとオーディオ-視覚的整合性を改善する。
論文 参考訳(メタデータ) (2024-09-02T09:41:24Z) - G3FA: Geometry-guided GAN for Face Animation [14.488117084637631]
この制限に対処するために、顔アニメーション(G3FA)のための幾何学誘導型GANを導入する。
我々の新しいアプローチは、顔アニメーションモデルに2次元画像のみを用いて3次元情報を組み込むことを可能にした。
顔の再現モデルでは、動きのダイナミクスを捉えるために2次元の運動ワープを利用する。
論文 参考訳(メタデータ) (2024-08-23T13:13:24Z) - Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - NeRFFaceSpeech: One-shot Audio-driven 3D Talking Head Synthesis via Generative Prior [5.819784482811377]
高品質な3D対応音声ヘッドを作成できる新しい方法NeRFFaceSpeechを提案する。
本手法では,1枚の画像に対応する3次元顔特徴空間を作成できる。
また,リパインネットを導入し,その情報不足を補う。
論文 参考訳(メタデータ) (2024-05-09T13:14:06Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - DF-3DFace: One-to-Many Speech Synchronized 3D Face Animation with
Diffusion [68.85904927374165]
拡散駆動型音声から3次元の顔メッシュ合成であるDF-3DFaceを提案する。
拡散に基づく音声と3次元顔の複雑な一対多関係をキャプチャする。
最先端の手法よりもリアルな顔アニメーションを同時に実現します。
論文 参考訳(メタデータ) (2023-08-23T04:14:55Z) - Parametric Implicit Face Representation for Audio-Driven Facial
Reenactment [52.33618333954383]
本稿では,制御可能かつ高品質な発話ヘッドを生成可能な,新しい音声駆動型顔再現フレームワークを提案する。
具体的には、パラメトリックな暗示表現は、3次元顔モデルの解釈可能なパラメータで暗示表現をパラメータ化する。
提案手法は,話者の身元や話し方に忠実な従来手法よりも現実的な結果が得られる。
論文 参考訳(メタデータ) (2023-06-13T07:08:22Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。