論文の概要: EmoTalk: Speech-Driven Emotional Disentanglement for 3D Face Animation
- arxiv url: http://arxiv.org/abs/2303.11089v2
- Date: Fri, 25 Aug 2023 04:50:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 17:54:31.990635
- Title: EmoTalk: Speech-Driven Emotional Disentanglement for 3D Face Animation
- Title(参考訳): EmoTalk:3次元顔アニメーションのための音声駆動型感情分散
- Authors: Ziqiao Peng, Haoyu Wu, Zhenbo Song, Hao Xu, Xiangyu Zhu, Jun He,
Hongyan Liu, Zhaoxin Fan
- Abstract要約: 音声駆動型3D顔アニメーションは、音声の内容と感情にマッチする現実的な表情を生成することを目的としている。
本稿では,3次元表情を豊かに表現するために,音声のさまざまな感情をアンタングルするエンド・ツー・エンドニューラルネットワークを提案する。
我々のアプローチは最先端の手法より優れ、より多様な顔の動きを示す。
- 参考スコア(独自算出の注目度): 28.964917860664492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-driven 3D face animation aims to generate realistic facial expressions
that match the speech content and emotion. However, existing methods often
neglect emotional facial expressions or fail to disentangle them from speech
content. To address this issue, this paper proposes an end-to-end neural
network to disentangle different emotions in speech so as to generate rich 3D
facial expressions. Specifically, we introduce the emotion disentangling
encoder (EDE) to disentangle the emotion and content in the speech by
cross-reconstructed speech signals with different emotion labels. Then an
emotion-guided feature fusion decoder is employed to generate a 3D talking face
with enhanced emotion. The decoder is driven by the disentangled identity,
emotional, and content embeddings so as to generate controllable personal and
emotional styles. Finally, considering the scarcity of the 3D emotional talking
face data, we resort to the supervision of facial blendshapes, which enables
the reconstruction of plausible 3D faces from 2D emotional data, and contribute
a large-scale 3D emotional talking face dataset (3D-ETF) to train the network.
Our experiments and user studies demonstrate that our approach outperforms
state-of-the-art methods and exhibits more diverse facial movements. We
recommend watching the supplementary video:
https://ziqiaopeng.github.io/emotalk
- Abstract(参考訳): 音声駆動の3d顔アニメーションは、音声の内容と感情にマッチするリアルな表情を作り出すことを目的としている。
しかし、既存の方法は感情的な表情を無視したり、それらが音声の内容から切り離されることがしばしばある。
そこで本稿では,音声中の異なる感情を分離し,リッチな3次元表情を生成するエンド・ツー・エンドニューラルネットワークを提案する。
具体的には,感情ラベルの異なる合成音声信号を用いて,音声中の感情と内容の絡み合いを解消する感情分離エンコーダ(ede)を提案する。
そして、感情誘導機能融合デコーダを用いて、感情を増強した3D音声顔を生成する。
デコーダは、分離されたアイデンティティ、感情、およびコンテンツ埋め込みによって駆動され、制御可能な個人的および感情的なスタイルを生成する。
最後に,3次元の感情的会話顔データの不足を考慮し,2次元の感情的データから可視な3次元顔の再構成を可能にし,ネットワークのトレーニングに大規模な3次元の感情的会話顔データセット(3D-ETF)を提供する。
実験とユーザスタディにより,このアプローチが最先端の手法を上回り,より多様な顔の動きを示すことが示された。
補足ビデオを見て欲しい。 https://ziqiaopeng.github.io/emotalk
関連論文リスト
- DEEPTalk: Dynamic Emotion Embedding for Probabilistic Speech-Driven 3D Face Animation [14.07086606183356]
音声駆動の3D顔アニメーションは、幅広い応用によって多くの注目を集めている。
現在の方法では、音声を通して伝達されるニュアンスな感情のアンダートーンを捉えることができず、単調な顔の動きを生成する。
音声入力から直接多様で感情的に豊かな表情を生成する新しいアプローチであるDEEPTalkを紹介する。
論文 参考訳(メタデータ) (2024-08-12T08:56:49Z) - EmoFace: Audio-driven Emotional 3D Face Animation [3.573880705052592]
EmoFaceは、鮮やかな感情的ダイナミクスを備えた顔アニメーションを作成するための、新しいオーディオ駆動の方法論である。
提案手法では,複数の感情で表情を生成でき,ランダムだが自然な点滅や眼球運動を生成できる。
提案手法は、ビデオゲームでプレイ不可能なキャラクターの対話アニメーションを作成し、バーチャルリアリティ環境でアバターを駆動するのに有効である。
論文 参考訳(メタデータ) (2024-07-17T11:32:16Z) - EmoSpeaker: One-shot Fine-grained Emotion-Controlled Talking Face
Generation [34.5592743467339]
微粒な顔のアニメーションを生成する視覚属性誘導型オーディオデカップラを提案する。
より正確な感情表現を実現するために,よりきめ細かな感情係数予測モジュールを導入する。
提案手法であるEmoSpeakerは,表情の変動や唇の同期の点で,既存の感情音声生成法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-02T14:04:18Z) - AdaMesh: Personalized Facial Expressions and Head Poses for Adaptive Speech-Driven 3D Facial Animation [49.4220768835379]
AdaMeshは、適応的な音声駆動の顔アニメーションアプローチである。
約10秒間の参照ビデオから、パーソナライズされた話し方を学ぶ。
鮮やかな表情と頭部のポーズを生成する。
論文 参考訳(メタデータ) (2023-10-11T06:56:08Z) - DF-3DFace: One-to-Many Speech Synchronized 3D Face Animation with
Diffusion [68.85904927374165]
拡散駆動型音声から3次元の顔メッシュ合成であるDF-3DFaceを提案する。
拡散に基づく音声と3次元顔の複雑な一対多関係をキャプチャする。
最先端の手法よりもリアルな顔アニメーションを同時に実現します。
論文 参考訳(メタデータ) (2023-08-23T04:14:55Z) - Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。
EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文 参考訳(メタデータ) (2023-06-15T09:31:31Z) - Emotionally Enhanced Talking Face Generation [52.07451348895041]
我々は、適切な表現でビデオを生成するために、カテゴリー的感情に基づく話し顔生成フレームワークを構築した。
モデルが任意のアイデンティティ、感情、言語に適応できることを示します。
提案するフレームワークはユーザフレンドリーなWebインターフェースを備えており,感情を伴う顔生成をリアルタイムに行うことができる。
論文 参考訳(メタデータ) (2023-03-21T02:33:27Z) - EMOCA: Emotion Driven Monocular Face Capture and Animation [59.15004328155593]
本稿では,学習中の感情の深層的一貫性を損なうことによって,再構成された3次元表現が入力画像に表現された表現と一致することを確実にする。
In-the-wild emotion recognitionのタスクでは、人間の行動を分析する上での3D幾何の価値を強調しながら、最も優れた画像ベースの手法と同等に幾何学的アプローチを実践しています。
論文 参考訳(メタデータ) (2022-04-24T15:58:35Z) - 3D-TalkEmo: Learning to Synthesize 3D Emotional Talking Head [13.305263646852087]
3D-TalkEmoは、様々な感情を持つ3Dトークヘッドアニメーションを生成するディープニューラルネットワークです。
私たちはまた、オーディオとビデオの同期、豊富なコーパス、異なる人のさまざまな感情状態を含む大きな3dデータセットも作成します。
論文 参考訳(メタデータ) (2021-04-25T02:48:19Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。