論文の概要: Pose-Controllable 3D Facial Animation Synthesis using Hierarchical
Audio-Vertex Attention
- arxiv url: http://arxiv.org/abs/2302.12532v1
- Date: Fri, 24 Feb 2023 09:36:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-27 14:04:46.200673
- Title: Pose-Controllable 3D Facial Animation Synthesis using Hierarchical
Audio-Vertex Attention
- Title(参考訳): 階層型オーディオバーテックスによるポーズ制御可能な3次元顔アニメーション合成
- Authors: Bin Liu, Xiaolin Wei, Bo Li, Junjie Cao, Yu-Kun Lai
- Abstract要約: 階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。
提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
- 参考スコア(独自算出の注目度): 52.63080543011595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most of the existing audio-driven 3D facial animation methods suffered from
the lack of detailed facial expression and head pose, resulting in
unsatisfactory experience of human-robot interaction. In this paper, a novel
pose-controllable 3D facial animation synthesis method is proposed by utilizing
hierarchical audio-vertex attention. To synthesize real and detailed
expression, a hierarchical decomposition strategy is proposed to encode the
audio signal into both a global latent feature and a local vertex-wise control
feature. Then the local and global audio features combined with vertex spatial
features are used to predict the final consistent facial animation via a graph
convolutional neural network by fusing the intrinsic spatial topology structure
of the face model and the corresponding semantic feature of the audio. To
accomplish pose-controllable animation, we introduce a novel pose attribute
augmentation method by utilizing the 2D talking face technique. Experimental
results indicate that the proposed method can produce more realistic facial
expressions and head posture movements. Qualitative and quantitative
experiments show that the proposed method achieves competitive performance
against state-of-the-art methods.
- Abstract(参考訳): 既存の音声駆動の3D顔アニメーション手法のほとんどは、詳細な表情と頭部ポーズの欠如に悩まされ、人間とロボットの相互作用に満足できない経験をもたらした。
本稿では,階層型音声頂点を用いたポーズ制御可能な3次元顔アニメーション合成法を提案する。
実かつ詳細な表現を合成するために,音声信号をグローバル潜在特徴と局所頂点制御特徴の両方に符号化する階層的分解戦略を提案する。
次に、局所音声特徴と頂点空間特徴とを組み合わせたグローバル音声特徴を用いて、顔モデルの固有空間トポロジ構造と対応する音声の意味特徴とを融合させて、グラフ畳み込みニューラルネットワークを介して最終的な一貫した顔アニメーションを予測する。
ポーズ制御可能なアニメーションを実現するために,2次元音声合成技術を用いてポーズ属性増強手法を提案する。
実験の結果,提案手法はよりリアルな表情と頭部姿勢運動を生成できることが示唆された。
定性的かつ定量的な実験により,提案手法は最先端の手法と競合する性能を示す。
関連論文リスト
- FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head
Models [46.10402812112539]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - DF-3DFace: One-to-Many Speech Synchronized 3D Face Animation with
Diffusion [68.85904927374165]
拡散駆動型音声から3次元の顔メッシュ合成であるDF-3DFaceを提案する。
拡散に基づく音声と3次元顔の複雑な一対多関係をキャプチャする。
最先端の手法よりもリアルな顔アニメーションを同時に実現します。
論文 参考訳(メタデータ) (2023-08-23T04:14:55Z) - Parametric Implicit Face Representation for Audio-Driven Facial
Reenactment [52.33618333954383]
本稿では,制御可能かつ高品質な発話ヘッドを生成可能な,新しい音声駆動型顔再現フレームワークを提案する。
具体的には、パラメトリックな暗示表現は、3次元顔モデルの解釈可能なパラメータで暗示表現をパラメータ化する。
提案手法は,話者の身元や話し方に忠実な従来手法よりも現実的な結果が得られる。
論文 参考訳(メタデータ) (2023-06-13T07:08:22Z) - CodeTalker: Speech-Driven 3D Facial Animation with Discrete Motion Prior [27.989344587876964]
音声駆動の3D顔アニメーションは広く研究されているが、現実主義と鮮明さを達成するにはまだまだギャップがある。
本稿では,学習したコードブックの有限プロキシ空間において,音声による顔のアニメーションをコードクエリタスクとしてキャストすることを提案する。
提案手法は, 定性的かつ定量的に, 現在の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-06T05:04:32Z) - Live Speech Portraits: Real-Time Photorealistic Talking-Head Animation [12.552355581481999]
まず,30fps以上の音声信号のみを駆動する,パーソナライズされた写真リアリスティックなトーキングヘッドアニメーションを生成するライブシステムを提案する。
第1段階はディープニューラルネットワークで、ターゲットの音声空間に特徴を投影する多様体投影と共に、ディープオーディオ特徴を抽出する。
第2段階では、投影された音声特徴から顔の動きと動きを学習する。
最終段階では、過去の予測から条件付き特徴写像を生成し、画像から画像への変換ネットワークに設定した候補画像で送信し、フォトリアリスティックレンダリングを合成する。
論文 参考訳(メタデータ) (2021-09-22T08:47:43Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z) - Learning Speech-driven 3D Conversational Gestures from Video [106.15628979352738]
同期3D対話体と手のジェスチャーの両方を自動的に共同合成する最初のアプローチを提案します。
本アルゴリズムは,表情と手のジェスチャーの固有相関を利用したcnnアーキテクチャを用いる。
われわれはまた、33時間以上の注釈付きボディ、手、顔データからなる大きなコーパスを作成する新しい方法にも貢献する。
論文 参考訳(メタデータ) (2021-02-13T01:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。