論文の概要: Speech-Driven 3D Face Animation with Composite and Regional Facial
Movements
- arxiv url: http://arxiv.org/abs/2308.05428v1
- Date: Thu, 10 Aug 2023 08:42:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 13:09:28.482428
- Title: Speech-Driven 3D Face Animation with Composite and Regional Facial
Movements
- Title(参考訳): 複合顔と局所顔の動きを用いた音声駆動3次元顔アニメーション
- Authors: Haozhe Wu, Songtao Zhou, Jia Jia, Junliang Xing, Qi Wen, Xiang Wen
- Abstract要約: 音声駆動の3D顔アニメーションは、人間の顔の動きに固有の複雑さと変動性のために大きな課題を提起する。
本稿では,音声駆動型3次元顔画像における顔の動きの複合的・局所的特性を両立させることの重要性を強調した。
- 参考スコア(独自算出の注目度): 30.348768852726295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-driven 3D face animation poses significant challenges due to the
intricacy and variability inherent in human facial movements. This paper
emphasizes the importance of considering both the composite and regional
natures of facial movements in speech-driven 3D face animation. The composite
nature pertains to how speech-independent factors globally modulate
speech-driven facial movements along the temporal dimension. Meanwhile, the
regional nature alludes to the notion that facial movements are not globally
correlated but are actuated by local musculature along the spatial dimension.
It is thus indispensable to incorporate both natures for engendering vivid
animation. To address the composite nature, we introduce an adaptive modulation
module that employs arbitrary facial movements to dynamically adjust
speech-driven facial movements across frames on a global scale. To accommodate
the regional nature, our approach ensures that each constituent of the facial
features for every frame focuses on the local spatial movements of 3D faces.
Moreover, we present a non-autoregressive backbone for translating audio to 3D
facial movements, which maintains high-frequency nuances of facial movements
and facilitates efficient inference. Comprehensive experiments and user studies
demonstrate that our method surpasses contemporary state-of-the-art approaches
both qualitatively and quantitatively.
- Abstract(参考訳): 音声駆動の3D顔アニメーションは、人間の顔の動きに固有の複雑さと変動性のために大きな課題を提起する。
本稿では,音声駆動型3d顔アニメーションにおける顔の動きの複合的・局所的特性を考慮することの重要性を強調する。
複合的な性質は、音声非依存的要因が時間的次元に沿って音声による顔の動きをグローバルに調節する方法に関係している。
一方、局所的な性質は、顔の動きはグローバルな相関ではなく、空間次元に沿った局所的な筋肉によって活性化されるという考えを暗示している。
したがって、生き生きとしたアニメーションに両方の性質を組み込むことは不可欠である。
複合的な性質に対処するために,任意の顔の動きを用いて,フレーム間の音声駆動顔の動きをグローバルスケールで動的に調整する適応変調モジュールを提案する。
本手法は,各フレームの顔の特徴のそれぞれの構成成分が3次元顔の局所的な空間運動に焦点をあてることを保証する。
さらに,3次元顔の動きに音声を変換するための非自己回帰バックボーンを提案する。
包括的実験とユーザスタディにより,本手法は質的および定量的に現代の最先端手法を上回っていることが示された。
関連論文リスト
- 3DiFACE: Diffusion-based Speech-driven 3D Facial Animation and Editing [22.30870274645442]
3DiFACEは、音声による顔のアニメーションと編集をパーソナライズする新しい方法である。
提案手法は,既存の最先端技術より優れ,忠実度と多様性が向上した音声駆動型アニメーションを実現する。
論文 参考訳(メタデータ) (2023-12-01T19:01:05Z) - Breathing Life into Faces: Speech-driven 3D Facial Animation with
Natural Head Pose and Detailed Shape [19.431264557873117]
VividTalkerは、音声による3D顔アニメーションを促進するために設計された新しいフレームワークである。
顔のアニメーションを頭ポーズと口の動きに明確に切り離し、別々にエンコードする。
我々は,詳細な形状を持つ新しい3次元データセットを構築し,音声内容に合わせて顔の詳細を合成することを学ぶ。
論文 参考訳(メタデータ) (2023-10-31T07:47:19Z) - DF-3DFace: One-to-Many Speech Synchronized 3D Face Animation with
Diffusion [68.85904927374165]
拡散駆動型音声から3次元の顔メッシュ合成であるDF-3DFaceを提案する。
拡散に基づく音声と3次元顔の複雑な一対多関係をキャプチャする。
最先端の手法よりもリアルな顔アニメーションを同時に実現します。
論文 参考訳(メタデータ) (2023-08-23T04:14:55Z) - Audio-Driven Talking Face Generation with Diverse yet Realistic Facial
Animations [61.65012981435094]
DIRFAは、異なるが現実的な顔のアニメーションを同一の駆動音声から生成できる新しい方法である。
同一音声に対して妥当な顔のアニメーションの変動に対応するため,トランスフォーマーに基づく確率的マッピングネットワークを設計する。
DIRFAは現実的な顔のアニメーションを効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-04-18T12:36:15Z) - Pose-Controllable 3D Facial Animation Synthesis using Hierarchical
Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。
提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文 参考訳(メタデータ) (2023-02-24T09:36:31Z) - Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。
本稿では,音声による表情合成手法であるImitatorについて述べる。
提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文 参考訳(メタデータ) (2022-12-30T19:00:02Z) - Generating Holistic 3D Human Motion from Speech [97.11392166257791]
同期音声を用いた3次元全体体メッシュの高品質データセットを構築した。
次に,顔,体,手が別々にモデル化される新しい音声合成フレームワークを定義する。
論文 参考訳(メタデータ) (2022-12-08T17:25:19Z) - A Novel Speech-Driven Lip-Sync Model with CNN and LSTM [12.747541089354538]
可変長音声入力から3次元テンプレート顔モデルの変位を生成するために,一次元畳み込みとLSTMを組み合わせたディープニューラルネットワークを提案する。
異なる音声信号に対するネットワークのロバスト性を高めるために,訓練された音声認識モデルを適用して音声特徴を抽出する。
本モデルでは, 音声に同期したスムーズで自然な唇の動きを生成できることが示されている。
論文 参考訳(メタデータ) (2022-05-02T13:57:50Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。