論文の概要: MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement
- arxiv url: http://arxiv.org/abs/2104.08223v1
- Date: Fri, 16 Apr 2021 17:05:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 14:19:07.985498
- Title: MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement
- Title(参考訳): MeshTalk:クロスモーダルディタングルメントを用いた音声からの3次元顔アニメーション
- Authors: Alexander Richard, Michael Zollhoefer, Yandong Wen, Fernando de la
Torre, Yaser Sheikh
- Abstract要約: 本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
- 参考スコア(独自算出の注目度): 142.9900055577252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a generic method for generating full facial 3D animation
from speech. Existing approaches to audio-driven facial animation exhibit
uncanny or static upper face animation, fail to produce accurate and plausible
co-articulation or rely on person-specific models that limit their scalability.
To improve upon existing models, we propose a generic audio-driven facial
animation approach that achieves highly realistic motion synthesis results for
the entire face. At the core of our approach is a categorical latent space for
facial animation that disentangles audio-correlated and audio-uncorrelated
information based on a novel cross-modality loss. Our approach ensures highly
accurate lip motion, while also synthesizing plausible animation of the parts
of the face that are uncorrelated to the audio signal, such as eye blinks and
eye brow motion. We demonstrate that our approach outperforms several baselines
and obtains state-of-the-art quality both qualitatively and quantitatively. A
perceptual user study demonstrates that our approach is deemed more realistic
than the current state-of-the-art in over 75% of cases. We recommend watching
the supplemental video before reading the paper:
https://research.fb.com/wp-content/uploads/2021/04/mesh_talk.mp4
- Abstract(参考訳): 本稿では,完全顔3dアニメーションを音声から生成する汎用的手法を提案する。
既存の音声駆動型顔アニメーションのアプローチは、不気味で静的な上面アニメーションを示し、正確で説得力に富むコアルティクスの生成に失敗し、スケーラビリティを制限した個人固有のモデルに依存している。
既存のモデルを改善するために,顔全体のリアルなモーション合成を実現する汎用的な音声駆動顔アニメーション手法を提案する。
提案手法のコアとなるのは,新たなモダリティ損失に基づいて,音声関連および音声非関連情報をアンタングルする,顔アニメーションのカテゴリー的潜在空間である。
提案手法は, 高精度な唇の動きを保証するとともに, 目まみれや目まみれの動きなど, 音声信号とは無関係な顔の部分の可視的アニメーションを合成する。
本手法は,いくつかのベースラインを上回っており,質的かつ定量的に最先端品質が得られることを示す。
認知的ユーザ調査の結果,75%以上の症例において,現在の最先端技術よりも本手法の方が現実的であることが示唆された。
https://research.fb.com/wp-content/uploads/2021/04/mesh_talk.mp4。
関連論文リスト
- 3DiFACE: Diffusion-based Speech-driven 3D Facial Animation and Editing [22.30870274645442]
3DiFACEは、音声による顔のアニメーションと編集をパーソナライズする新しい方法である。
提案手法は,既存の最先端技術より優れ,忠実度と多様性が向上した音声駆動型アニメーションを実現する。
論文 参考訳(メタデータ) (2023-12-01T19:01:05Z) - FaceDiffuser: Speech-Driven 3D Facial Animation Synthesis Using
Diffusion [0.0]
音声駆動型顔アニメーションを生成するための非決定論的ディープラーニングモデルFaceDiffuserを提案する。
提案手法は拡散法に基づいて,事前学習した大規模音声表現モデル HuBERT を用いて音声入力を符号化する。
また、ブレンドシェープに基づくリップキャラクタに基づく、新たな社内データセットも導入する。
論文 参考訳(メタデータ) (2023-09-20T13:33:00Z) - DF-3DFace: One-to-Many Speech Synchronized 3D Face Animation with
Diffusion [68.85904927374165]
拡散駆動型音声から3次元の顔メッシュ合成であるDF-3DFaceを提案する。
拡散に基づく音声と3次元顔の複雑な一対多関係をキャプチャする。
最先端の手法よりもリアルな顔アニメーションを同時に実現します。
論文 参考訳(メタデータ) (2023-08-23T04:14:55Z) - Audio-Driven Talking Face Generation with Diverse yet Realistic Facial
Animations [61.65012981435094]
DIRFAは、異なるが現実的な顔のアニメーションを同一の駆動音声から生成できる新しい方法である。
同一音声に対して妥当な顔のアニメーションの変動に対応するため,トランスフォーマーに基づく確率的マッピングネットワークを設計する。
DIRFAは現実的な顔のアニメーションを効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-04-18T12:36:15Z) - FaceXHuBERT: Text-less Speech-driven E(X)pressive 3D Facial Animation
Synthesis Using Self-Supervised Speech Representation Learning [0.0]
FaceXHuBERTは、テキストレス音声駆動の3D顔アニメーション生成方法である。
背景雑音に対して非常に頑丈で、様々な状況で録音された音声を処理できる。
アニメーションの写実性に関しては78%の精度で優れた結果が得られる。
論文 参考訳(メタデータ) (2023-03-09T17:05:19Z) - Pose-Controllable 3D Facial Animation Synthesis using Hierarchical
Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。
提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文 参考訳(メタデータ) (2023-02-24T09:36:31Z) - CodeTalker: Speech-Driven 3D Facial Animation with Discrete Motion Prior [27.989344587876964]
音声駆動の3D顔アニメーションは広く研究されているが、現実主義と鮮明さを達成するにはまだまだギャップがある。
本稿では,学習したコードブックの有限プロキシ空間において,音声による顔のアニメーションをコードクエリタスクとしてキャストすることを提案する。
提案手法は, 定性的かつ定量的に, 現在の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-06T05:04:32Z) - Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。
本稿では,音声による表情合成手法であるImitatorについて述べる。
提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文 参考訳(メタデータ) (2022-12-30T19:00:02Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。