論文の概要: EmoFace: Emotion-Content Disentangled Speech-Driven 3D Talking Face Animation
- arxiv url: http://arxiv.org/abs/2408.11518v2
- Date: Tue, 28 Jan 2025 02:29:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:39:03.827411
- Title: EmoFace: Emotion-Content Disentangled Speech-Driven 3D Talking Face Animation
- Title(参考訳): EmoFace: 表情アニメーションによる感情内容の遠方性音声駆動型3D講演
- Authors: Yihong Lin, Liang Peng, Xianjia Wu, Jianqiao Hu, Xiandong Li, Wenxiong Kang, Songju Lei, Huang Xu,
- Abstract要約: 感情枝とコンテンツ枝からなる2ストリームネットワークであるEmoFaceを提案する。
EmoFaceは、感情機能とコンテンツ機能を分析し、融合させる、新しいMesh Attentionメカニズムを採用している。
3次元顔アニメーションタスクで採用される地平の比率を調整するため、中間監督を伴う新たな自己成長トレーニングスキームを導入するのは、今回が初めてである。
- 参考スコア(独自算出の注目度): 25.09349792539704
- License:
- Abstract: The creation of increasingly vivid 3D talking face has become a hot topic in recent years. Currently, most speech-driven works focus on lip synchronisation but neglect to effectively capture the correlations between emotions and facial motions. To address this problem, we propose a two-stream network called EmoFace, which consists of an emotion branch and a content branch. EmoFace employs a novel Mesh Attention mechanism to analyse and fuse the emotion features and content features. Particularly, a newly designed spatio-temporal graph-based convolution, SpiralConv3D, is used in Mesh Attention to learn potential temporal and spatial feature dependencies between mesh vertices. In addition, to the best of our knowledge, it is the first time to introduce a new self-growing training scheme with intermediate supervision to dynamically adjust the ratio of groundtruth adopted in the 3D face animation task. Comprehensive quantitative and qualitative evaluations on our high-quality 3D emotional facial animation dataset, 3D-RAVDESS ($4.8863\times 10^{-5}$mm for LVE and $0.9509\times 10^{-5}$mm for EVE), together with the public dataset VOCASET ($2.8669\times 10^{-5}$mm for LVE and $0.4664\times 10^{-5}$mm for EVE), demonstrate that our approach achieves state-of-the-art performance.
- Abstract(参考訳): 近年、ますます鮮明な3D顔の制作がホットな話題になっている。
現在、ほとんどの音声による作品は唇の同期に焦点を当てているが、感情と顔の動きの相関を効果的に捉えることは無視されている。
この問題に対処するために,感情枝とコンテンツ枝からなるEmoFaceと呼ばれる2ストリームネットワークを提案する。
EmoFaceは、感情機能とコンテンツ機能を分析し、融合させる、新しいMesh Attentionメカニズムを採用している。
特に、新たに設計された時空間グラフベースの畳み込みであるSpralConv3Dは、メッシュ頂点間の時間的および空間的特徴の潜在的な依存性を学習するために、メッシュアテンションで使用される。
さらに,我々の知る限り,3次元顔アニメーションタスクで採用される基盤の比率を動的に調整する,中間的監督を伴う新たな自己成長トレーニングスキームを導入するのは,今回が初めてである。
3D-RAVDESS$mm for LVE and $0.9509\times 10^{-5}$mm for EVE, and the public dataset VOCASET$2.8669\times 10^{-5}$mm for LVE and $0.4664\times 10^{-5}$mm for EVE, この手法が最先端のパフォーマンスを達成することを示す。
関連論文リスト
- Towards Rich Emotions in 3D Avatars: A Text-to-3D Avatar Generation Benchmark [78.72350264142987]
音声(Emo3D)から派生したテキストで感情的にダイナミックな3D顔アバターを生成することは、3Dアバター生成において重要な研究課題となっている。
本稿では,Emo3D生成を再検討し,人間のプロセスからインスピレーションを得て,Emo3Dをテキストから3D表現マッピング(T3DEM)と3Dアバターレンダリング(3DAR)の2つのカスケードステップに分解する。
これらの課題に対処するため,我々はEmo3D生成の研究を進めるための新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2024-12-03T15:39:05Z) - MMHead: Towards Fine-grained Multi-modal 3D Facial Animation [68.04052669266174]
大規模なマルチモーダル3次元顔アニメーションデータセットMMHeadを構築した。
MMHeadは、49時間の3D顔の動きシーケンス、音声、リッチな階層的なテキストアノテーションで構成されている。
MMHeadデータセットに基づいて,テキストによる3次元対話ヘッドアニメーションとテキストから3次元の顔の動き生成という,2つの新しいタスクのベンチマークを構築した。
論文 参考訳(メタデータ) (2024-10-10T09:37:01Z) - MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes [74.82911268630463]
トーキングフェース生成(TFG)は、ターゲットアイデンティティーの顔をアニメーション化し、リアルなトーキングビデオを作成することを目的としている。
MimicTalkは、個人別TFGの効率性と堅牢性を改善するために、NeRFベースの個人非依存のジェネリックモデルから豊富な知識を活用する。
私たちのMimicTalkは、ビデオの品質、効率、表現性に関して、これまでのベースラインを超えていることが実験によって示されています。
論文 参考訳(メタデータ) (2024-10-09T10:12:37Z) - ProbTalk3D: Non-Deterministic Emotion Controllable Speech-Driven 3D Facial Animation Synthesis Using VQ-VAE [0.0]
感情と非決定主義は多様で感情に富んだ顔のアニメーションを生成するために不可欠である、と我々は主張する。
本稿では,感情制御可能な音声駆動3次元顔画像合成のための非決定論的ニューラルネットワーク手法ProbTalk3Dを提案する。
論文 参考訳(メタデータ) (2024-09-12T11:53:05Z) - DEEPTalk: Dynamic Emotion Embedding for Probabilistic Speech-Driven 3D Face Animation [14.07086606183356]
音声駆動の3D顔アニメーションは、幅広い応用によって多くの注目を集めている。
現在の方法では、音声を通して伝達されるニュアンスな感情のアンダートーンを捉えることができず、単調な顔の動きを生成する。
音声入力から直接多様で感情的に豊かな表情を生成する新しいアプローチであるDEEPTalkを紹介する。
論文 参考訳(メタデータ) (2024-08-12T08:56:49Z) - EmoTalk3D: High-Fidelity Free-View Synthesis of Emotional 3D Talking Head [30.138347111341748]
本稿では,3次元音声頭部を制御可能な感情で合成する新しい手法を提案する。
本モデルでは,生成した音声の感情を制御可能とし,広視野で表現することができる。
実験により,高忠実度・感情制御可能な3次元音声頭部の創出におけるアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2024-08-01T05:46:57Z) - Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。
EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文 参考訳(メタデータ) (2023-06-15T09:31:31Z) - EmoTalk: Speech-Driven Emotional Disentanglement for 3D Face Animation [28.964917860664492]
音声駆動型3D顔アニメーションは、音声の内容と感情にマッチする現実的な表情を生成することを目的としている。
本稿では,3次元表情を豊かに表現するために,音声のさまざまな感情をアンタングルするエンド・ツー・エンドニューラルネットワークを提案する。
我々のアプローチは最先端の手法より優れ、より多様な顔の動きを示す。
論文 参考訳(メタデータ) (2023-03-20T13:22:04Z) - EMOCA: Emotion Driven Monocular Face Capture and Animation [59.15004328155593]
本稿では,学習中の感情の深層的一貫性を損なうことによって,再構成された3次元表現が入力画像に表現された表現と一致することを確実にする。
In-the-wild emotion recognitionのタスクでは、人間の行動を分析する上での3D幾何の価値を強調しながら、最も優れた画像ベースの手法と同等に幾何学的アプローチを実践しています。
論文 参考訳(メタデータ) (2022-04-24T15:58:35Z) - 3D-TalkEmo: Learning to Synthesize 3D Emotional Talking Head [13.305263646852087]
3D-TalkEmoは、様々な感情を持つ3Dトークヘッドアニメーションを生成するディープニューラルネットワークです。
私たちはまた、オーディオとビデオの同期、豊富なコーパス、異なる人のさまざまな感情状態を含む大きな3dデータセットも作成します。
論文 参考訳(メタデータ) (2021-04-25T02:48:19Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。