論文の概要: 3D-TalkEmo: Learning to Synthesize 3D Emotional Talking Head
- arxiv url: http://arxiv.org/abs/2104.12051v1
- Date: Sun, 25 Apr 2021 02:48:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 14:25:37.592482
- Title: 3D-TalkEmo: Learning to Synthesize 3D Emotional Talking Head
- Title(参考訳): 3D-TalkEmo: 3D Emotional Talking Headの合成学習
- Authors: Qianyun Wang, Zhenfeng Fan, Shihong Xia
- Abstract要約: 3D-TalkEmoは、様々な感情を持つ3Dトークヘッドアニメーションを生成するディープニューラルネットワークです。
私たちはまた、オーディオとビデオの同期、豊富なコーパス、異なる人のさまざまな感情状態を含む大きな3dデータセットも作成します。
- 参考スコア(独自算出の注目度): 13.305263646852087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Impressive progress has been made in audio-driven 3D facial animation
recently, but synthesizing 3D talking-head with rich emotion is still unsolved.
This is due to the lack of 3D generative models and available 3D emotional
dataset with synchronized audios. To address this, we introduce 3D-TalkEmo, a
deep neural network that generates 3D talking head animation with various
emotions. We also create a large 3D dataset with synchronized audios and
videos, rich corpus, as well as various emotion states of different persons
with the sophisticated 3D face reconstruction methods. In the emotion
generation network, we propose a novel 3D face representation structure -
geometry map by classical multi-dimensional scaling analysis. It maps the
coordinates of vertices on a 3D face to a canonical image plane, while
preserving the vertex-to-vertex geodesic distance metric in a least-square
sense. This maintains the adjacency relationship of each vertex and holds the
effective convolutional structure for the 3D facial surface. Taking a neutral
3D mesh and a speech signal as inputs, the 3D-TalkEmo is able to generate vivid
facial animations. Moreover, it provides access to change the emotion state of
the animated speaker.
We present extensive quantitative and qualitative evaluation of our method,
in addition to user studies, demonstrating the generated talking-heads of
significantly higher quality compared to previous state-of-the-art methods.
- Abstract(参考訳): 最近、音声駆動の3D顔アニメーションで印象的な進歩が見られたが、豊かな感情で3Dトーキングヘッドを合成することは、まだ未解決である。
これは、3d生成モデルと、同期オーディオを備えた3d感情データセットが欠如しているためである。
そこで我々は3D-TalkEmoというディープニューラルネットワークを導入し,様々な感情を持つ3Dトーキングヘッドアニメーションを生成する。
また,高度な3d顔再構成手法を用いて,音声と映像の同期化,コーパスの充実,さまざまな感情状態を備えた大規模3dデータセットを作成する。
感情生成ネットワークにおいて,従来の多次元スケーリング解析による3次元顔表現構造図を提案する。
3次元面上の頂点の座標を正準像平面にマッピングし、頂点から頂点への測地距離を最小二乗意味で保持する。
これは各頂点の隣接関係を維持し、3次元顔表面の効果的な畳み込み構造を保持する。
中立的な3Dメッシュと音声信号を入力として、この3D-TalkEmoは鮮やかな顔アニメーションを生成することができる。
さらに、アニメーションスピーカの感情状態を変更するためのアクセスも提供する。
提案手法の定量的,定性的な評価を行い,ユーザ研究に加えて,従来の最先端手法に比べて高い品質の音声ヘッドを生成する。
関連論文リスト
- MMHead: Towards Fine-grained Multi-modal 3D Facial Animation [68.04052669266174]
大規模なマルチモーダル3次元顔アニメーションデータセットMMHeadを構築した。
MMHeadは、49時間の3D顔の動きシーケンス、音声、リッチな階層的なテキストアノテーションで構成されている。
MMHeadデータセットに基づいて,テキストによる3次元対話ヘッドアニメーションとテキストから3次元の顔の動き生成という,2つの新しいタスクのベンチマークを構築した。
論文 参考訳(メタデータ) (2024-10-10T09:37:01Z) - EmoTalk3D: High-Fidelity Free-View Synthesis of Emotional 3D Talking Head [30.138347111341748]
本稿では,3次元音声頭部を制御可能な感情で合成する新しい手法を提案する。
本モデルでは,生成した音声の感情を制御可能とし,広視野で表現することができる。
実験により,高忠実度・感情制御可能な3次元音声頭部の創出におけるアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2024-08-01T05:46:57Z) - EmoVOCA: Speech-Driven Emotional 3D Talking Heads [12.161006152509653]
EmoVOCAと呼ばれる合成データセットを作成するための革新的なデータ駆動手法を提案する。
次に,3次元顔,音声ファイル,感情ラベル,強度値を入力として受け入れる感情的3次元音声ヘッドジェネレータを設計,訓練し,顔の表情特性で音声同期唇の動きをアニメーション化することを学ぶ。
論文 参考訳(メタデータ) (2024-03-19T16:33:26Z) - Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis [88.17520303867099]
ワンショットの3Dトーキングポートレート生成は、目に見えない画像から3Dアバターを再構成し、参照ビデオやオーディオでアニメーション化する。
本稿では,大規模な画像-平面モデルを用いて,ワンショット3D再構成能力を向上させるフレームワークであるReal3D-Potraitを提案する。
実験の結果、Real3D-Portraitは目に見えない人物を一般化し、よりリアルなトーキング・ポートレート・ビデオを生成することがわかった。
論文 参考訳(メタデータ) (2024-01-16T17:04:30Z) - DF-3DFace: One-to-Many Speech Synchronized 3D Face Animation with
Diffusion [68.85904927374165]
拡散駆動型音声から3次元の顔メッシュ合成であるDF-3DFaceを提案する。
拡散に基づく音声と3次元顔の複雑な一対多関係をキャプチャする。
最先端の手法よりもリアルな顔アニメーションを同時に実現します。
論文 参考訳(メタデータ) (2023-08-23T04:14:55Z) - EmoTalk: Speech-Driven Emotional Disentanglement for 3D Face Animation [28.964917860664492]
音声駆動型3D顔アニメーションは、音声の内容と感情にマッチする現実的な表情を生成することを目的としている。
本稿では,3次元表情を豊かに表現するために,音声のさまざまな感情をアンタングルするエンド・ツー・エンドニューラルネットワークを提案する。
我々のアプローチは最先端の手法より優れ、より多様な顔の動きを示す。
論文 参考訳(メタデータ) (2023-03-20T13:22:04Z) - SadTalker: Learning Realistic 3D Motion Coefficients for Stylized
Audio-Driven Single Image Talking Face Animation [33.651156455111916]
本稿では,3DMMの3次元動き係数(頭部ポーズ,表情)を音声から生成するSadTalkerを提案する。
正確には、3Dレンダリングされた顔の両係数を蒸留することにより、音声から正確な表情を学習するExpNetを提案する。
論文 参考訳(メタデータ) (2022-11-22T11:35:07Z) - AniFaceGAN: Animatable 3D-Aware Face Image Generation for Video Avatars [71.00322191446203]
2D生成モデルは、異なるカメラ視点で画像をレンダリングする際に、しばしば望ましくないアーティファクトに悩まされる。
近年,3次元シーン表現を活用することで,3次元カメラポーズのゆがみを明示するために2次元GANを拡張している。
マルチビュー一貫した顔アニメーション生成のためのアニマタブルな3D対応GANを提案する。
論文 参考訳(メタデータ) (2022-10-12T17:59:56Z) - Learning Speech-driven 3D Conversational Gestures from Video [106.15628979352738]
同期3D対話体と手のジェスチャーの両方を自動的に共同合成する最初のアプローチを提案します。
本アルゴリズムは,表情と手のジェスチャーの固有相関を利用したcnnアーキテクチャを用いる。
われわれはまた、33時間以上の注釈付きボディ、手、顔データからなる大きなコーパスを作成する新しい方法にも貢献する。
論文 参考訳(メタデータ) (2021-02-13T01:05:39Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。