論文の概要: Emotional Speech-driven 3D Body Animation via Disentangled Latent
Diffusion
- arxiv url: http://arxiv.org/abs/2312.04466v1
- Date: Thu, 7 Dec 2023 17:39:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 13:59:05.039390
- Title: Emotional Speech-driven 3D Body Animation via Disentangled Latent
Diffusion
- Title(参考訳): 遠方拡散による感情音声駆動型3次元身体アニメーション
- Authors: Kiran Chhatre, Radek Dan\v{e}\v{c}ek, Nikos Athanasiou, Giorgio
Becherini, Christopher Peters, Michael J. Black, Timo Bolkart
- Abstract要約: 音声から3次元人間のジェスチャーを合成する既存の手法は有望な結果を示した。
本稿では,潜在拡散に基づく感情音声駆動体アニメーションモデルAMUSEを提案する。
- 参考スコア(独自算出の注目度): 47.34200927092162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing methods for synthesizing 3D human gestures from speech have shown
promising results, but they do not explicitly model the impact of emotions on
the generated gestures. Instead, these methods directly output animations from
speech without control over the expressed emotion. To address this limitation,
we present AMUSE, an emotional speech-driven body animation model based on
latent diffusion. Our observation is that content (i.e., gestures related to
speech rhythm and word utterances), emotion, and personal style are separable.
To account for this, AMUSE maps the driving audio to three disentangled latent
vectors: one for content, one for emotion, and one for personal style. A latent
diffusion model, trained to generate gesture motion sequences, is then
conditioned on these latent vectors. Once trained, AMUSE synthesizes 3D human
gestures directly from speech with control over the expressed emotions and
style by combining the content from the driving speech with the emotion and
style of another speech sequence. Randomly sampling the noise of the diffusion
model further generates variations of the gesture with the same emotional
expressivity. Qualitative, quantitative, and perceptual evaluations demonstrate
that AMUSE outputs realistic gesture sequences. Compared to the state of the
art, the generated gestures are better synchronized with the speech content and
better represent the emotion expressed by the input speech. Our project website
is amuse.is.tue.mpg.de.
- Abstract(参考訳): 音声から3次元人間のジェスチャーを合成する既存の手法は有望な結果を示しているが、感情が生成したジェスチャーに与える影響を明示的にモデル化するものではない。
代わりに、これらの方法は、表現された感情を制御せずに、音声からアニメーションを直接出力する。
この制限に対処するため,潜在拡散に基づく感情音声駆動体アニメーションモデルAMUSEを提案する。
我々の観察では、内容(すなわち、発声リズムや発話に関連するジェスチャー)、感情、個人的スタイルは分離可能である。
これを説明するため、AMUSEは、駆動音声を3つの非絡み合った潜伏ベクトル(コンテンツ用、感情用、個人用)にマッピングする。
ジェスチャー動作シーケンスを生成するために訓練された潜伏拡散モデルが、これらの潜伏ベクトルに条件付けされる。
訓練後、AMUSEは、音声から直接3Dの人間のジェスチャーを合成し、表現された感情とスタイルを制御し、駆動音声からのコンテンツと他の音声シーケンスの感情とスタイルを組み合わせる。
拡散モデルのノイズをランダムにサンプリングすると、同じ感情表現性を持つジェスチャーのバリエーションが生成される。
定性的、定量的、知覚的な評価は、AMUSEが現実的なジェスチャーシーケンスを出力することを示す。
美術品の状態と比較して、生成したジェスチャーは音声内容とよりよく同期し、入力された音声によって表現される感情をより良く表現する。
プロジェクトのwebサイトはamuse.is.tue.mpg.deです。
関連論文リスト
- DEEPTalk: Dynamic Emotion Embedding for Probabilistic Speech-Driven 3D Face Animation [14.07086606183356]
音声駆動の3D顔アニメーションは、幅広い応用によって多くの注目を集めている。
現在の方法では、音声を通して伝達されるニュアンスな感情のアンダートーンを捉えることができず、単調な顔の動きを生成する。
音声入力から直接多様で感情的に豊かな表情を生成する新しいアプローチであるDEEPTalkを紹介する。
論文 参考訳(メタデータ) (2024-08-12T08:56:49Z) - CSTalk: Correlation Supervised Speech-driven 3D Emotional Facial Animation Generation [13.27632316528572]
音声駆動の3D顔アニメーション技術は長年開発されてきたが、実用的応用には期待できない。
主な課題は、データ制限、唇のアライメント、表情の自然さである。
本稿では,顔の動きの異なる領域間の相関をモデル化し,生成モデルの訓練を監督し,現実的な表現を生成するCSTalkという手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T11:19:15Z) - Weakly-Supervised Emotion Transition Learning for Diverse 3D Co-speech Gesture Generation [43.04371187071256]
本研究では,3次元アバターにおける鮮明で感情的な3次元共同音声ジェスチャを生成する新しい手法を提案する。
そこで我々は,ChatGPT-4と音声インペインティング手法を用いて,高忠実度感情遷移音声を構築する。
本手法は,1つの感情条件に適応して構築した最先端モデルよりも優れる。
論文 参考訳(メタデータ) (2023-11-29T11:10:40Z) - Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。
EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文 参考訳(メタデータ) (2023-06-15T09:31:31Z) - EmotionGesture: Audio-Driven Diverse Emotional Co-Speech 3D Gesture
Generation [24.547098909937034]
EmotionGestureは、オーディオから、鮮明で多様な感情的な3Dジェスチャーを合成するための新しいフレームワークである。
我々のフレームワークは最先端の3Dジェスチャーよりも優れており、鮮明で多様な感情的な3Dジェスチャーを実現している。
論文 参考訳(メタデータ) (2023-05-30T09:47:29Z) - Generating Holistic 3D Human Motion from Speech [97.11392166257791]
同期音声を用いた3次元全体体メッシュの高品質データセットを構築した。
次に,顔,体,手が別々にモデル化される新しい音声合成フレームワークを定義する。
論文 参考訳(メタデータ) (2022-12-08T17:25:19Z) - Audio-Driven Co-Speech Gesture Video Generation [92.15661971086746]
音声駆動型音声合成におけるこの課題を定義し,検討する。
私たちの重要な洞察は、共同音声ジェスチャーは共通の動きパターンと微妙なリズムダイナミクスに分解できるということです。
本稿では,再利用可能な音声のジェスチャーパターンを効果的に捉えるための新しいフレームワークであるAudio-driveN Gesture vIdeo gEneration(ANGIE)を提案する。
論文 参考訳(メタデータ) (2022-12-05T15:28:22Z) - Freeform Body Motion Generation from Speech [53.50388964591343]
音声から体の動きを生成することは、音声から体の動きへの非決定論的マッピングのために本質的に困難である。
2ストリームアーキテクチャを組み込んだ新しいフリーフォームモーション生成モデル(FreeMo)を提案する。
実験は、いくつかのベースラインに対して優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-04T13:03:22Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。