論文の概要: Learn2Talk: 3D Talking Face Learns from 2D Talking Face
- arxiv url: http://arxiv.org/abs/2404.12888v1
- Date: Fri, 19 Apr 2024 13:45:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 14:57:17.373315
- Title: Learn2Talk: 3D Talking Face Learns from 2D Talking Face
- Title(参考訳): Learn2Talk: 2Dトーキングフェイスから学ぶ3Dトーキングフェイス
- Authors: Yixiang Zhuang, Baoping Cheng, Yao Cheng, Yuntao Jin, Renshuai Liu, Chengyang Li, Xuan Cheng, Jing Liao, Juncong Lin,
- Abstract要約: 本稿では,より優れた3次元音声対話ネットワークを構築することができるLearn2Talkという学習フレームワークを提案する。
オーディオビデオ同期ネットワークにインスパイアされた3Dシンク・リップエキスパートモデルが,リップシンクの追求のために考案された。
2次元対話顔法から選択された教師モデルを用いて、音声から3次元動きの回帰ネットワークのトレーニングを指導する。
- 参考スコア(独自算出の注目度): 15.99315075587735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech-driven facial animation methods usually contain two main classes, 3D and 2D talking face, both of which attract considerable research attention in recent years. However, to the best of our knowledge, the research on 3D talking face does not go deeper as 2D talking face, in the aspect of lip-synchronization (lip-sync) and speech perception. To mind the gap between the two sub-fields, we propose a learning framework named Learn2Talk, which can construct a better 3D talking face network by exploiting two expertise points from the field of 2D talking face. Firstly, inspired by the audio-video sync network, a 3D sync-lip expert model is devised for the pursuit of lip-sync between audio and 3D facial motion. Secondly, a teacher model selected from 2D talking face methods is used to guide the training of the audio-to-3D motions regression network to yield more 3D vertex accuracy. Extensive experiments show the advantages of the proposed framework in terms of lip-sync, vertex accuracy and speech perception, compared with state-of-the-arts. Finally, we show two applications of the proposed framework: audio-visual speech recognition and speech-driven 3D Gaussian Splatting based avatar animation.
- Abstract(参考訳): 音声駆動型顔アニメーション法は通常3Dと2Dの2つの主要なクラスを含むが、どちらも近年研究が注目されている。
しかし、私たちの知る限りでは、リップシンクロナイゼーション(リップシンクロナイゼーション)と音声知覚の観点から、3次元音声顔の研究は2次元音声顔ほど深くは進まない。
この2つのサブフィールド間のギャップを念頭に置いてLearn2Talkという学習フレームワークを提案する。
まず、音声とビデオの同期ネットワークにインスパイアされ、3Dシンク・リップの専門家モデルが、音声と3Dの顔の動きのリップシンクを追求するために考案された。
次に,2次元対話顔法から選択した教師モデルを用いて,音声から3次元動きの回帰ネットワークのトレーニングを誘導し,より3次元頂点精度を向上する。
拡張実験により, 口唇同期, 頂点精度, 音声知覚の観点から, 最先端技術と比較して, 提案手法の利点が示された。
最後に,提案フレームワークの2つの応用として,音声-視覚音声認識と3次元ガウススプラッティングに基づくアバターアニメーションを提案する。
関連論文リスト
- 2D or not 2D: How Does the Dimensionality of Gesture Representation Affect 3D Co-Speech Gesture Generation? [5.408549711581793]
本研究では,2次元もしくは3次元の関節座標を訓練データとして用いることが,音声から身近な深層生成モデルの性能に及ぼす影響について検討した。
生成した2Dポーズシーケンスを3Dに変換するためのリフトモデルを用いて,2Dで生成したジェスチャと3Dで生成したジェスチャを直接3Dスタックで生成し,次に3Dに変換する方法を評価する。
論文 参考訳(メタデータ) (2024-09-16T15:06:12Z) - Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis [88.17520303867099]
ワンショットの3Dトーキングポートレート生成は、目に見えない画像から3Dアバターを再構成し、参照ビデオやオーディオでアニメーション化する。
本稿では,大規模な画像-平面モデルを用いて,ワンショット3D再構成能力を向上させるフレームワークであるReal3D-Potraitを提案する。
実験の結果、Real3D-Portraitは目に見えない人物を一般化し、よりリアルなトーキング・ポートレート・ビデオを生成することがわかった。
論文 参考訳(メタデータ) (2024-01-16T17:04:30Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - DF-3DFace: One-to-Many Speech Synchronized 3D Face Animation with
Diffusion [68.85904927374165]
拡散駆動型音声から3次元の顔メッシュ合成であるDF-3DFaceを提案する。
拡散に基づく音声と3次元顔の複雑な一対多関係をキャプチャする。
最先端の手法よりもリアルな顔アニメーションを同時に実現します。
論文 参考訳(メタデータ) (2023-08-23T04:14:55Z) - Visual Speech-Aware Perceptual 3D Facial Expression Reconstruction from
Videos [32.48058491211032]
本稿では,3次元の表情を視覚的に認識する最初の方法を提案する。
我々は,3次元再構成音声頭部からの知覚がオリジナルの映像と類似するように適合過程を導出する「可読性」損失を提案する。
論文 参考訳(メタデータ) (2022-07-22T14:07:46Z) - 3D-TalkEmo: Learning to Synthesize 3D Emotional Talking Head [13.305263646852087]
3D-TalkEmoは、様々な感情を持つ3Dトークヘッドアニメーションを生成するディープニューラルネットワークです。
私たちはまた、オーディオとビデオの同期、豊富なコーパス、異なる人のさまざまな感情状態を含む大きな3dデータセットも作成します。
論文 参考訳(メタデータ) (2021-04-25T02:48:19Z) - Voice2Mesh: Cross-Modal 3D Face Model Generation from Voices [18.600534152951926]
本研究は,3次元顔モデルが話者の音声入力からのみ学習できるかどうかの分析に焦点をあてる。
教師なし学習フレームワークと教師なし学習フレームワークの両方を提案する。
特に,音声対3次元の直接データセットが存在しない場合,教師なし学習がいかに可能かを示す。
論文 参考訳(メタデータ) (2021-04-21T01:14:50Z) - Learning Speech-driven 3D Conversational Gestures from Video [106.15628979352738]
同期3D対話体と手のジェスチャーの両方を自動的に共同合成する最初のアプローチを提案します。
本アルゴリズムは,表情と手のジェスチャーの固有相関を利用したcnnアーキテクチャを用いる。
われわれはまた、33時間以上の注釈付きボディ、手、顔データからなる大きなコーパスを作成する新しい方法にも貢献する。
論文 参考訳(メタデータ) (2021-02-13T01:05:39Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。