論文の概要: FaceFormer: Speech-Driven 3D Facial Animation with Transformers
- arxiv url: http://arxiv.org/abs/2112.05329v1
- Date: Fri, 10 Dec 2021 04:21:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-13 15:23:54.221251
- Title: FaceFormer: Speech-Driven 3D Facial Animation with Transformers
- Title(参考訳): faceformer:トランスフォーマーを使った音声駆動3d顔アニメーション
- Authors: Yingruo Fan, Zhaojiang Lin, Jun Saito, Wenping Wang, Taku Komura
- Abstract要約: 音声駆動の3D顔アニメーションは、人間の顔の複雑な形状と、3Dオーディオ視覚データの利用が制限されているため、難しい。
本研究では,トランスフォーマーをベースとした自動回帰モデルFaceFormerを提案し,長期音声コンテキストを符号化し,アニメーション3D顔メッシュのシーケンスを自動回帰予測する。
- 参考スコア(独自算出の注目度): 46.8780140220063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-driven 3D facial animation is challenging due to the complex geometry
of human faces and the limited availability of 3D audio-visual data. Prior
works typically focus on learning phoneme-level features of short audio windows
with limited context, occasionally resulting in inaccurate lip movements. To
tackle this limitation, we propose a Transformer-based autoregressive model,
FaceFormer, which encodes the long-term audio context and autoregressively
predicts a sequence of animated 3D face meshes. To cope with the data scarcity
issue, we integrate the self-supervised pre-trained speech representations.
Also, we devise two biased attention mechanisms well suited to this specific
task, including the biased cross-modal multi-head (MH) attention and the biased
causal MH self-attention with a periodic positional encoding strategy. The
former effectively aligns the audio-motion modalities, whereas the latter
offers abilities to generalize to longer audio sequences. Extensive experiments
and a perceptual user study show that our approach outperforms the existing
state-of-the-arts. The code will be made available.
- Abstract(参考訳): 音声駆動の3D顔アニメーションは、人間の顔の複雑な形状と、3Dオーディオ視覚データの利用が制限されているため、難しい。
先行研究は通常、短い音声ウィンドウの音素レベルの特徴を学習することに集中しており、時には不正確な唇の動きをもたらす。
そこで本稿では,この制約に対処するために,長期的な音声コンテキストを符号化し,アニメーション3d顔メッシュのシーケンスを自己回帰的に予測する,トランスフォーマティブベースの自己回帰モデルfaceformerを提案する。
データ不足問題に対処するために,自己教師付き事前学習音声表現を統合する。
また,このタスクによく適合する2つのバイアス付き注意機構を考案し,バイアス付きクロスモーダルマルチヘッド (mh) の注意と,周期的位置符号化戦略によるバイアス付き因果的mhセルフアテンションを含む。
前者は音声モーションのモダリティを効果的に調整し、後者は長い音声シーケンスに一般化する機能を提供する。
広範な実験と知覚的ユーザ調査の結果,既存の最先端技術よりも優れたアプローチが得られた。
コードは利用可能になります。
関連論文リスト
- MMHead: Towards Fine-grained Multi-modal 3D Facial Animation [68.04052669266174]
大規模なマルチモーダル3次元顔アニメーションデータセットMMHeadを構築した。
MMHeadは、49時間の3D顔の動きシーケンス、音声、リッチな階層的なテキストアノテーションで構成されている。
MMHeadデータセットに基づいて,テキストによる3次元対話ヘッドアニメーションとテキストから3次元の顔の動き生成という,2つの新しいタスクのベンチマークを構築した。
論文 参考訳(メタデータ) (2024-10-10T09:37:01Z) - KMTalk: Speech-Driven 3D Facial Animation with Key Motion Embedding [19.15471840100407]
キーモーション埋め込みを用いた音声系列から3次元顔の動きを合成する新しい手法を提案する。
本手法は,言語に基づくキーモーション獲得とモーダル間動作完了の2つのモジュールを通じて,言語的およびデータ駆動の先行情報を統合する。
後者は、キーモーションを音声機能によって案内される3D音声のフルシーケンスに拡張し、時間的コヒーレンスとオーディオ-視覚的整合性を改善する。
論文 参考訳(メタデータ) (2024-09-02T09:41:24Z) - EmoVOCA: Speech-Driven Emotional 3D Talking Heads [12.161006152509653]
EmoVOCAと呼ばれる合成データセットを作成するための革新的なデータ駆動手法を提案する。
次に,3次元顔,音声ファイル,感情ラベル,強度値を入力として受け入れる感情的3次元音声ヘッドジェネレータを設計,訓練し,顔の表情特性で音声同期唇の動きをアニメーション化することを学ぶ。
論文 参考訳(メタデータ) (2024-03-19T16:33:26Z) - SAiD: Speech-driven Blendshape Facial Animation with Diffusion [6.4271091365094515]
大規模なビジュアルオーディオデータセットが不足しているため、音声駆動の3D顔アニメーションは困難である。
拡散モデル (SAiD) を用いた音声駆動型3次元顔アニメーションを提案する。
論文 参考訳(メタデータ) (2023-12-25T04:40:32Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - PMMTalk: Speech-Driven 3D Facial Animation from Complementary Pseudo
Multi-modal Features [22.31865247379668]
音声駆動の3D顔アニメーションは、最近大幅に改善されている。
関連作品の多くは音響的モダリティのみを利用しており、視覚的・テキスト的手がかりの影響を無視している。
顔アニメーションの精度を向上させるために,Pseudo Multi-Modal 機能を用いた新しいフレームワーク PMMTalk を提案する。
論文 参考訳(メタデータ) (2023-12-05T14:12:38Z) - GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking
Face Generation [71.73912454164834]
音声-リップ同期の汎用化, 画質の向上, システム効率の向上が期待できる。
NeRFは、数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため、この分野で一般的な技術となっている。
そこで我々は,これらの課題に対処するためにGeneFace++を提案し,ピッチの輪郭を補助的特徴として利用し,顔の動き予測プロセスに時間的損失を導入する。
論文 参考訳(メタデータ) (2023-05-01T12:24:09Z) - Learning to Predict Salient Faces: A Novel Visual-Audio Saliency Model [96.24038430433885]
本稿では,視覚,音声,顔の3つの分枝からなるマルチモーダルビデオサリエンシーモデルを提案する。
実験結果から,提案手法は,11の最先端サリエンシ予測作業より優れていた。
論文 参考訳(メタデータ) (2021-03-29T09:09:39Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。