論文の概要: EmoFace: Emotion-Content Disentangled Speech-Driven 3D Talking Face with Mesh Attention
- arxiv url: http://arxiv.org/abs/2408.11518v1
- Date: Wed, 21 Aug 2024 10:51:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 17:27:26.604363
- Title: EmoFace: Emotion-Content Disentangled Speech-Driven 3D Talking Face with Mesh Attention
- Title(参考訳): EmoFace: メッシュアテンション付き感情コンテンツ分散音声駆動型3Dトーキング
- Authors: Yihong Lin, Liang Peng, Jianqiao Hu, Xiandong Li, Wenxiong Kang, Songju Lei, Xianjia Wu, Huang Xu,
- Abstract要約: 感情と表情の相関を効果的に捉えるために,EmoFaceと呼ばれる新しいモデルを提案する。
EmoFaceでは、時間と空間におけるメッシュ間の潜在的な機能依存関係の学習を支援する、新しいMesh Attentionメカニズムを採用している。
また,教師の強制力と3次元顔アニメーションタスクのスケジュールサンプリングを組み合わせた効果的な自己成長学習手法を,私たちの知る限り初めて採用した。
- 参考スコア(独自算出の注目度): 25.09349792539704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The creation of increasingly vivid 3D virtual digital humans has become a hot topic in recent years. Currently, most speech-driven work focuses on training models to learn the relationship between phonemes and visemes to achieve more realistic lips. However, they fail to capture the correlations between emotions and facial expressions effectively. To solve this problem, we propose a new model, termed EmoFace. EmoFace employs a novel Mesh Attention mechanism, which helps to learn potential feature dependencies between mesh vertices in time and space. We also adopt, for the first time to our knowledge, an effective self-growing training scheme that combines teacher-forcing and scheduled sampling in a 3D face animation task. Additionally, since EmoFace is an autoregressive model, there is no requirement that the first frame of the training data must be a silent frame, which greatly reduces the data limitations and contributes to solve the current dilemma of insufficient datasets. Comprehensive quantitative and qualitative evaluations on our proposed high-quality reconstructed 3D emotional facial animation dataset, 3D-RAVDESS ($5.0343\times 10^{-5}$mm for LVE and $1.0196\times 10^{-5}$mm for EVE), and publicly available dataset VOCASET ($2.8669\times 10^{-5}$mm for LVE and $0.4664\times 10^{-5}$mm for EVE), demonstrate that our algorithm achieves state-of-the-art performance.
- Abstract(参考訳): 近年、ますます鮮明な3Dバーチャル・デジタル・ヒューマンの創造がホットな話題となっている。
現在、ほとんどの音声駆動の作業は、よりリアルな唇を達成するために、音素とビセムの関係を学ぶためのトレーニングモデルに焦点を当てている。
しかし、感情と表情の相関を効果的に捉えられなかった。
この問題を解決するために,EmoFaceと呼ばれる新しいモデルを提案する。
EmoFaceは、メッシュ頂点間の潜在的な機能依存を時間と空間で学習するのに役立つ、新しいMesh Attentionメカニズムを採用している。
また,教師の強制力と3次元顔アニメーションタスクのスケジュールサンプリングを組み合わせた効果的な自己成長学習手法を,私たちの知る限り初めて採用した。
さらに、EmoFaceは自己回帰モデルであるため、トレーニングデータの第一フレームがサイレントフレームでなければならないという要件はない。
3D-RAVDESS (5.0343\times 10^{-5}$mm for LVE and $1.0196\times 10^{-5}$mm for EVE) および一般用データセットVOCASET (2.8669\times 10^{-5}$mm for LVE and $0.4664\times 10^{-5}$mm for EVE) に関する総合的・質的な評価を行い、我々のアルゴリズムが最先端のパフォーマンスを達成することを示した。
関連論文リスト
- MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes [74.82911268630463]
トーキングフェース生成(TFG)は、ターゲットアイデンティティーの顔をアニメーション化し、リアルなトーキングビデオを作成することを目的としている。
MimicTalkは、個人別TFGの効率性と堅牢性を改善するために、NeRFベースの個人非依存のジェネリックモデルから豊富な知識を活用する。
私たちのMimicTalkは、ビデオの品質、効率、表現性に関して、これまでのベースラインを超えていることが実験によって示されています。
論文 参考訳(メタデータ) (2024-10-09T10:12:37Z) - Emo3D: Metric and Benchmarking Dataset for 3D Facial Expression Generation from Emotion Description [3.52270271101496]
Emo3Dは、人間の感情の幅広い範囲にまたがる広範な「テキスト画像表現データセット」である。
我々は多種多様なテキスト記述を生成し、感情表現の幅広い範囲を捉えやすくする。
エモ3D」はアニメーションデザイン、バーチャルリアリティ、感情的な人間とコンピュータのインタラクションに優れた応用がある。
論文 参考訳(メタデータ) (2024-10-02T21:31:24Z) - EmoTalk3D: High-Fidelity Free-View Synthesis of Emotional 3D Talking Head [30.138347111341748]
本稿では,3次元音声頭部を制御可能な感情で合成する新しい手法を提案する。
本モデルでは,生成した音声の感情を制御可能とし,広視野で表現することができる。
実験により,高忠実度・感情制御可能な3次元音声頭部の創出におけるアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2024-08-01T05:46:57Z) - AnimateMe: 4D Facial Expressions via Diffusion Models [72.63383191654357]
拡散モデルの最近の進歩により、2次元アニメーションにおける生成モデルの能力が向上した。
グラフニューラルネットワーク(GNN)は,メッシュ空間上で直接拡散過程を定式化し,新しい手法で拡散モデルを記述する。
これにより、メッシュ拡散モデルによる顔の変形の発生が容易になる。
論文 参考訳(メタデータ) (2024-03-25T21:40:44Z) - EmoVOCA: Speech-Driven Emotional 3D Talking Heads [12.161006152509653]
EmoVOCAと呼ばれる合成データセットを作成するための革新的なデータ駆動手法を提案する。
次に,3次元顔,音声ファイル,感情ラベル,強度値を入力として受け入れる感情的3次元音声ヘッドジェネレータを設計,訓練し,顔の表情特性で音声同期唇の動きをアニメーション化することを学ぶ。
論文 参考訳(メタデータ) (2024-03-19T16:33:26Z) - VRMM: A Volumetric Relightable Morphable Head Model [55.21098471673929]
本稿では,3次元顔モデリングに先立って,新しい容積・パラメトリック顔モデルであるVRMMを紹介する。
我々のフレームワークは、アイデンティティ、表現、照明の潜在空間を、低次元の表現に効率的に切り離し、エンコードする。
我々は,アバター生成,顔の再構成,アニメーションなどの様々な応用を通じて,VRMMの汎用性と有効性を示す。
論文 参考訳(メタデータ) (2024-02-06T15:55:46Z) - A Generative Framework for Self-Supervised Facial Representation Learning [18.094262972295702]
自己教師付き表現学習は、ペア化されたデータセットに頼ることなく、強力な一般化能力に注目されるようになった。
自己監督型顔表現学習は、顔のアイデンティティ、表情、ポーズや光といった外部要因の結合により未解決のままである。
自己教師型顔表現のための新しい生成フレームワークであるLatentFaceを提案する。
論文 参考訳(メタデータ) (2023-09-15T09:34:05Z) - SketchMetaFace: A Learning-based Sketching Interface for High-fidelity
3D Character Face Modeling [69.28254439393298]
SketchMetaFaceは、アマチュアユーザーを対象に、高忠実度3D顔を数分でモデリングするスケッチシステムである。
我々は"Implicit and Depth Guided Mesh Modeling"(IDGMM)と呼ばれる新しい学習ベース手法を開発した。
メッシュ、暗黙、深度表現の利点を融合させ、高い効率で高品質な結果を達成する。
論文 参考訳(メタデータ) (2023-07-03T07:41:07Z) - EMOCA: Emotion Driven Monocular Face Capture and Animation [59.15004328155593]
本稿では,学習中の感情の深層的一貫性を損なうことによって,再構成された3次元表現が入力画像に表現された表現と一致することを確実にする。
In-the-wild emotion recognitionのタスクでは、人間の行動を分析する上での3D幾何の価値を強調しながら、最も優れた画像ベースの手法と同等に幾何学的アプローチを実践しています。
論文 参考訳(メタデータ) (2022-04-24T15:58:35Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。