論文の概要: Emotional Speech-driven 3D Body Animation via Disentangled Latent
Diffusion
- arxiv url: http://arxiv.org/abs/2312.04466v1
- Date: Thu, 7 Dec 2023 17:39:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 13:59:05.039390
- Title: Emotional Speech-driven 3D Body Animation via Disentangled Latent
Diffusion
- Title(参考訳): 遠方拡散による感情音声駆動型3次元身体アニメーション
- Authors: Kiran Chhatre, Radek Dan\v{e}\v{c}ek, Nikos Athanasiou, Giorgio
Becherini, Christopher Peters, Michael J. Black, Timo Bolkart
- Abstract要約: 音声から3次元人間のジェスチャーを合成する既存の手法は有望な結果を示した。
本稿では,潜在拡散に基づく感情音声駆動体アニメーションモデルAMUSEを提案する。
- 参考スコア(独自算出の注目度): 47.34200927092162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing methods for synthesizing 3D human gestures from speech have shown
promising results, but they do not explicitly model the impact of emotions on
the generated gestures. Instead, these methods directly output animations from
speech without control over the expressed emotion. To address this limitation,
we present AMUSE, an emotional speech-driven body animation model based on
latent diffusion. Our observation is that content (i.e., gestures related to
speech rhythm and word utterances), emotion, and personal style are separable.
To account for this, AMUSE maps the driving audio to three disentangled latent
vectors: one for content, one for emotion, and one for personal style. A latent
diffusion model, trained to generate gesture motion sequences, is then
conditioned on these latent vectors. Once trained, AMUSE synthesizes 3D human
gestures directly from speech with control over the expressed emotions and
style by combining the content from the driving speech with the emotion and
style of another speech sequence. Randomly sampling the noise of the diffusion
model further generates variations of the gesture with the same emotional
expressivity. Qualitative, quantitative, and perceptual evaluations demonstrate
that AMUSE outputs realistic gesture sequences. Compared to the state of the
art, the generated gestures are better synchronized with the speech content and
better represent the emotion expressed by the input speech. Our project website
is amuse.is.tue.mpg.de.
- Abstract(参考訳): 音声から3次元人間のジェスチャーを合成する既存の手法は有望な結果を示しているが、感情が生成したジェスチャーに与える影響を明示的にモデル化するものではない。
代わりに、これらの方法は、表現された感情を制御せずに、音声からアニメーションを直接出力する。
この制限に対処するため,潜在拡散に基づく感情音声駆動体アニメーションモデルAMUSEを提案する。
我々の観察では、内容(すなわち、発声リズムや発話に関連するジェスチャー)、感情、個人的スタイルは分離可能である。
これを説明するため、AMUSEは、駆動音声を3つの非絡み合った潜伏ベクトル(コンテンツ用、感情用、個人用)にマッピングする。
ジェスチャー動作シーケンスを生成するために訓練された潜伏拡散モデルが、これらの潜伏ベクトルに条件付けされる。
訓練後、AMUSEは、音声から直接3Dの人間のジェスチャーを合成し、表現された感情とスタイルを制御し、駆動音声からのコンテンツと他の音声シーケンスの感情とスタイルを組み合わせる。
拡散モデルのノイズをランダムにサンプリングすると、同じ感情表現性を持つジェスチャーのバリエーションが生成される。
定性的、定量的、知覚的な評価は、AMUSEが現実的なジェスチャーシーケンスを出力することを示す。
美術品の状態と比較して、生成したジェスチャーは音声内容とよりよく同期し、入力された音声によって表現される感情をより良く表現する。
プロジェクトのwebサイトはamuse.is.tue.mpg.deです。
関連論文リスト
- EmoSpeaker: One-shot Fine-grained Emotion-Controlled Talking Face
Generation [34.5592743467339]
微粒な顔のアニメーションを生成する視覚属性誘導型オーディオデカップラを提案する。
より正確な感情表現を実現するために,よりきめ細かな感情係数予測モジュールを導入する。
提案手法であるEmoSpeakerは,表情の変動や唇の同期の点で,既存の感情音声生成法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-02T14:04:18Z) - Weakly-Supervised Emotion Transition Learning for Diverse 3D Co-speech
Gesture Generation [44.324828591922945]
本研究では,3次元アバターにおける鮮明で感情的な3次元共同音声ジェスチャを生成する新しい手法を提案する。
そこで我々は,ChatGPT-4と音声インペインティング手法を用いて,高忠実度感情遷移音声を構築する。
本手法は,1つの感情条件に適応して構築した最先端モデルよりも優れる。
論文 参考訳(メタデータ) (2023-11-29T11:10:40Z) - Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。
EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文 参考訳(メタデータ) (2023-06-15T09:31:31Z) - EmotionGesture: Audio-Driven Diverse Emotional Co-Speech 3D Gesture
Generation [24.547098909937034]
EmotionGestureは、オーディオから、鮮明で多様な感情的な3Dジェスチャーを合成するための新しいフレームワークである。
我々のフレームワークは最先端の3Dジェスチャーよりも優れており、鮮明で多様な感情的な3Dジェスチャーを実現している。
論文 参考訳(メタデータ) (2023-05-30T09:47:29Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - EmoTalk: Speech-Driven Emotional Disentanglement for 3D Face Animation [28.964917860664492]
音声駆動型3D顔アニメーションは、音声の内容と感情にマッチする現実的な表情を生成することを目的としている。
本稿では,3次元表情を豊かに表現するために,音声のさまざまな感情をアンタングルするエンド・ツー・エンドニューラルネットワークを提案する。
我々のアプローチは最先端の手法より優れ、より多様な顔の動きを示す。
論文 参考訳(メタデータ) (2023-03-20T13:22:04Z) - Audio-Driven Co-Speech Gesture Video Generation [92.15661971086746]
音声駆動型音声合成におけるこの課題を定義し,検討する。
私たちの重要な洞察は、共同音声ジェスチャーは共通の動きパターンと微妙なリズムダイナミクスに分解できるということです。
本稿では,再利用可能な音声のジェスチャーパターンを効果的に捉えるための新しいフレームワークであるAudio-driveN Gesture vIdeo gEneration(ANGIE)を提案する。
論文 参考訳(メタデータ) (2022-12-05T15:28:22Z) - Freeform Body Motion Generation from Speech [53.50388964591343]
音声から体の動きを生成することは、音声から体の動きへの非決定論的マッピングのために本質的に困難である。
2ストリームアーキテクチャを組み込んだ新しいフリーフォームモーション生成モデル(FreeMo)を提案する。
実験は、いくつかのベースラインに対して優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-04T13:03:22Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。