論文の概要: Emotional Speech-driven 3D Body Animation via Disentangled Latent Diffusion
- arxiv url: http://arxiv.org/abs/2312.04466v2
- Date: Mon, 1 Apr 2024 08:56:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 12:03:39.727313
- Title: Emotional Speech-driven 3D Body Animation via Disentangled Latent Diffusion
- Title(参考訳): 遠方拡散による感情音声駆動型3次元身体アニメーション
- Authors: Kiran Chhatre, Radek Daněček, Nikos Athanasiou, Giorgio Becherini, Christopher Peters, Michael J. Black, Timo Bolkart,
- Abstract要約: 音声から3次元人間のジェスチャーを合成する既存の手法は有望な結果を示した。
本稿では,潜在拡散に基づく感情音声駆動体アニメーションモデルAMUSEを提案する。
- 参考スコア(独自算出の注目度): 45.081371413693425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing methods for synthesizing 3D human gestures from speech have shown promising results, but they do not explicitly model the impact of emotions on the generated gestures. Instead, these methods directly output animations from speech without control over the expressed emotion. To address this limitation, we present AMUSE, an emotional speech-driven body animation model based on latent diffusion. Our observation is that content (i.e., gestures related to speech rhythm and word utterances), emotion, and personal style are separable. To account for this, AMUSE maps the driving audio to three disentangled latent vectors: one for content, one for emotion, and one for personal style. A latent diffusion model, trained to generate gesture motion sequences, is then conditioned on these latent vectors. Once trained, AMUSE synthesizes 3D human gestures directly from speech with control over the expressed emotions and style by combining the content from the driving speech with the emotion and style of another speech sequence. Randomly sampling the noise of the diffusion model further generates variations of the gesture with the same emotional expressivity. Qualitative, quantitative, and perceptual evaluations demonstrate that AMUSE outputs realistic gesture sequences. Compared to the state of the art, the generated gestures are better synchronized with the speech content, and better represent the emotion expressed by the input speech. Our code is available at amuse.is.tue.mpg.de.
- Abstract(参考訳): 既存の音声から3次元の人間のジェスチャーを合成する方法は、有望な結果を示しているが、それらが生成したジェスチャーに対する感情の影響を明示的にモデル化するものではない。
代わりに、これらの手法は、表現された感情を制御せずに、音声から直接アニメーションを出力する。
この制限に対処するために,潜伏拡散に基づく感情音声駆動体アニメーションモデルAMUSEを提案する。
我々の観察では、内容(すなわち、発声リズムと単語発声に関連するジェスチャー)、感情、個人的スタイルが分離可能である。
これを説明するため、AMUSEは、駆動音声を3つの非絡み合った潜伏ベクトル(コンテンツ用、感情用、個人用)にマッピングする。
ジェスチャー動作シーケンスを生成するために訓練された潜伏拡散モデルが、これらの潜伏ベクトルに条件付けされる。
訓練後、AMUSEは、音声から直接3Dの人間のジェスチャーを合成し、表現された感情とスタイルを制御し、駆動音声からのコンテンツと他の音声シーケンスの感情とスタイルを組み合わせる。
拡散モデルのノイズをランダムにサンプリングすると、同じ感情表現性を持つジェスチャーのバリエーションがさらに生成される。
定性的、定量的、知覚的な評価は、AMUSEが現実的なジェスチャーシーケンスを出力することを示す。
現状と比較して、生成したジェスチャーは、音声内容とよりよく同期し、入力された音声によって表現される感情をより良く表現する。
私たちのコードは amuse.is.tue.mpg.de で利用可能です。
関連論文リスト
- GaussianSpeech: Audio-Driven Gaussian Avatars [76.10163891172192]
本稿では,3次元頭部アバターの高忠実度アニメーションシーケンスを音声音声から合成する手法であるGaussianSpeechを紹介する。
本稿では,表情に依存した色を生成するコンパクトで効率的な3DGSベースのアバター表現を提案する。
論文 参考訳(メタデータ) (2024-11-27T18:54:08Z) - DEEPTalk: Dynamic Emotion Embedding for Probabilistic Speech-Driven 3D Face Animation [14.07086606183356]
音声駆動の3D顔アニメーションは、幅広い応用によって多くの注目を集めている。
現在の方法では、音声を通して伝達されるニュアンスな感情のアンダートーンを捉えることができず、単調な顔の動きを生成する。
音声入力から直接多様で感情的に豊かな表情を生成する新しいアプローチであるDEEPTalkを紹介する。
論文 参考訳(メタデータ) (2024-08-12T08:56:49Z) - CSTalk: Correlation Supervised Speech-driven 3D Emotional Facial Animation Generation [13.27632316528572]
音声駆動の3D顔アニメーション技術は長年開発されてきたが、実用的応用には期待できない。
主な課題は、データ制限、唇のアライメント、表情の自然さである。
本稿では,顔の動きの異なる領域間の相関をモデル化し,生成モデルの訓練を監督し,現実的な表現を生成するCSTalkという手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T11:19:15Z) - Weakly-Supervised Emotion Transition Learning for Diverse 3D Co-speech Gesture Generation [43.04371187071256]
本研究では,3次元アバターにおける鮮明で感情的な3次元共同音声ジェスチャを生成する新しい手法を提案する。
そこで我々は,ChatGPT-4と音声インペインティング手法を用いて,高忠実度感情遷移音声を構築する。
本手法は,1つの感情条件に適応して構築した最先端モデルよりも優れる。
論文 参考訳(メタデータ) (2023-11-29T11:10:40Z) - Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。
EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文 参考訳(メタデータ) (2023-06-15T09:31:31Z) - EmotionGesture: Audio-Driven Diverse Emotional Co-Speech 3D Gesture
Generation [24.547098909937034]
EmotionGestureは、オーディオから、鮮明で多様な感情的な3Dジェスチャーを合成するための新しいフレームワークである。
我々のフレームワークは最先端の3Dジェスチャーよりも優れており、鮮明で多様な感情的な3Dジェスチャーを実現している。
論文 参考訳(メタデータ) (2023-05-30T09:47:29Z) - Audio-Driven Co-Speech Gesture Video Generation [92.15661971086746]
音声駆動型音声合成におけるこの課題を定義し,検討する。
私たちの重要な洞察は、共同音声ジェスチャーは共通の動きパターンと微妙なリズムダイナミクスに分解できるということです。
本稿では,再利用可能な音声のジェスチャーパターンを効果的に捉えるための新しいフレームワークであるAudio-driveN Gesture vIdeo gEneration(ANGIE)を提案する。
論文 参考訳(メタデータ) (2022-12-05T15:28:22Z) - Freeform Body Motion Generation from Speech [53.50388964591343]
音声から体の動きを生成することは、音声から体の動きへの非決定論的マッピングのために本質的に困難である。
2ストリームアーキテクチャを組み込んだ新しいフリーフォームモーション生成モデル(FreeMo)を提案する。
実験は、いくつかのベースラインに対して優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-04T13:03:22Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。