論文の概要: Probabilistic Speech-Driven 3D Facial Motion Synthesis: New Benchmarks,
Methods, and Applications
- arxiv url: http://arxiv.org/abs/2311.18168v1
- Date: Thu, 30 Nov 2023 01:14:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 18:30:11.934203
- Title: Probabilistic Speech-Driven 3D Facial Motion Synthesis: New Benchmarks,
Methods, and Applications
- Title(参考訳): 確率的音声駆動3次元顔運動合成:新しいベンチマーク,方法,応用
- Authors: Karren D. Yang, Anurag Ranjan, Jen-Hao Rick Chang, Raviteja
Vemulapalli, Oncel Tuzel
- Abstract要約: 音声信号から3次元顔形状を推定する作業について検討する。
既存の作業は主に決定論的であり、限られた話者を持つ小さなデータセット上で、音声信号から3D顔メッシュへの1対1のマッピングを学ぶことに集中している。
- 参考スコア(独自算出の注目度): 20.842799581850617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the task of animating 3D facial geometry from speech signal.
Existing works are primarily deterministic, focusing on learning a one-to-one
mapping from speech signal to 3D face meshes on small datasets with limited
speakers. While these models can achieve high-quality lip articulation for
speakers in the training set, they are unable to capture the full and diverse
distribution of 3D facial motions that accompany speech in the real world.
Importantly, the relationship between speech and facial motion is one-to-many,
containing both inter-speaker and intra-speaker variations and necessitating a
probabilistic approach. In this paper, we identify and address key challenges
that have so far limited the development of probabilistic models: lack of
datasets and metrics that are suitable for training and evaluating them, as
well as the difficulty of designing a model that generates diverse results
while remaining faithful to a strong conditioning signal as speech. We first
propose large-scale benchmark datasets and metrics suitable for probabilistic
modeling. Then, we demonstrate a probabilistic model that achieves both
diversity and fidelity to speech, outperforming other methods across the
proposed benchmarks. Finally, we showcase useful applications of probabilistic
models trained on these large-scale datasets: we can generate diverse
speech-driven 3D facial motion that matches unseen speaker styles extracted
from reference clips; and our synthetic meshes can be used to improve the
performance of downstream audio-visual models.
- Abstract(参考訳): 音声信号から3次元顔形状をアニメーション化する作業について検討する。
既存の作業は主に決定論的であり、限られた話者を持つ小さなデータセット上で、音声信号から3D顔メッシュへの1対1のマッピングを学ぶことに集中している。
これらのモデルは、訓練セットにおける話者の高品質な口唇調音を実現することができるが、現実世界における発話に伴う3d顔の動きの完全かつ多様な分布を捉えることはできない。
重要なことは、音声と顔の動きの関係は1対多であり、話者間と話者内の両方のバリエーションを含み、確率論的アプローチを必要とすることである。
本稿では,確率モデルの開発をこれまで制限してきた課題,すなわち,学習や評価に適したデータセットやメトリクスの欠如や,音声として強い条件付け信号に忠実なまま多様な結果を生成するモデルの設計が困難であることを特定し,対処する。
まず,確率モデリングに適した大規模ベンチマークデータセットとメトリクスを提案する。
そこで,本研究では,言語に対する多様性と忠実度を両立させる確率論的モデルを提案する。
最後に,これら大規模データセットでトレーニングされた確率モデルの有用な応用例を示す。我々は,参照クリップから抽出した未認識の話者スタイルにマッチする多様な音声駆動3次元顔動作を生成できる。
関連論文リスト
- Diverse Code Query Learning for Speech-Driven Facial Animation [2.1779479916071067]
音声駆動型顔アニメーションは、所定の音声信号に従って唇同期3D音声を合成することを目的としている。
我々は,同一の音声信号に条件付された複数のサンプルを予測し,多様な顔のアニメーションに対処するために,サンプルの多様性を明示的に促すことを提案する。
論文 参考訳(メタデータ) (2024-09-27T21:15:21Z) - SAiD: Speech-driven Blendshape Facial Animation with Diffusion [6.4271091365094515]
大規模なビジュアルオーディオデータセットが不足しているため、音声駆動の3D顔アニメーションは困難である。
拡散モデル (SAiD) を用いた音声駆動型3次元顔アニメーションを提案する。
論文 参考訳(メタデータ) (2023-12-25T04:40:32Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - DualTalker: A Cross-Modal Dual Learning Approach for Speech-Driven 3D
Facial Animation [10.73030153404956]
データ利用効率を向上させるために,DualTalkerと呼ばれるクロスモーダルなデュアルラーニングフレームワークを提案する。
このフレームワークは、主要なタスク(オーディオ駆動の顔アニメーション)とその2つのタスク(リップ読み取り)との共同で訓練され、一般的なオーディオ/モーションエンコーダコンポーネントを共有する。
我々の手法は、定性的かつ定量的に現在の最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-11-08T15:39:56Z) - BodyFormer: Semantics-guided 3D Body Gesture Synthesis with Transformer [42.87095473590205]
音声からの3次元身体ジェスチャー自動合成のための新しいフレームワークを提案する。
本システムは,Trinity 音声位置推定データセットあるいは Talking With Hands 16.2M データセットを用いて学習する。
その結果,本システムは既存の最先端手法と比較して,より現実的で,適切で,多様な身体ジェスチャーを生成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-07T01:11:11Z) - Parametric Implicit Face Representation for Audio-Driven Facial
Reenactment [52.33618333954383]
本稿では,制御可能かつ高品質な発話ヘッドを生成可能な,新しい音声駆動型顔再現フレームワークを提案する。
具体的には、パラメトリックな暗示表現は、3次元顔モデルの解釈可能なパラメータで暗示表現をパラメータ化する。
提案手法は,話者の身元や話し方に忠実な従来手法よりも現実的な結果が得られる。
論文 参考訳(メタデータ) (2023-06-13T07:08:22Z) - Generating Holistic 3D Human Motion from Speech [97.11392166257791]
同期音声を用いた3次元全体体メッシュの高品質データセットを構築した。
次に,顔,体,手が別々にモデル化される新しい音声合成フレームワークを定義する。
論文 参考訳(メタデータ) (2022-12-08T17:25:19Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Learning Speech-driven 3D Conversational Gestures from Video [106.15628979352738]
同期3D対話体と手のジェスチャーの両方を自動的に共同合成する最初のアプローチを提案します。
本アルゴリズムは,表情と手のジェスチャーの固有相関を利用したcnnアーキテクチャを用いる。
われわれはまた、33時間以上の注釈付きボディ、手、顔データからなる大きなコーパスを作成する新しい方法にも貢献する。
論文 参考訳(メタデータ) (2021-02-13T01:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。