論文の概要: EmotionGesture: Audio-Driven Diverse Emotional Co-Speech 3D Gesture
Generation
- arxiv url: http://arxiv.org/abs/2305.18891v1
- Date: Tue, 30 May 2023 09:47:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 17:11:35.257455
- Title: EmotionGesture: Audio-Driven Diverse Emotional Co-Speech 3D Gesture
Generation
- Title(参考訳): Emotion Gesture: 音声駆動の逆感情型3Dジェスチャー生成
- Authors: Xingqun Qi, Chen Liu, Lincheng Li, Jie Hou, Haoran Xin, Xin Yu
- Abstract要約: EmotionGestureは,音声からの感情的な3Dジェスチャーを鮮明かつ多様に表現するための新しいフレームワークである。
音声のリズミカルビートに感情が絡み合うことを考えると、まずEmotion-Beat Mining Module (EBM) を開発する。
そこで本研究では,初期ポーズから将来のジェスチャーを生成するために,初期ポーズに基づく時空間プロンプタ(STP)を提案する。
- 参考スコア(独自算出の注目度): 24.472909716604182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating vivid and diverse 3D co-speech gestures is crucial for various
applications in animating virtual avatars. While most existing methods can
generate gestures from audio directly, they usually overlook that emotion is
one of the key factors of authentic co-speech gesture generation. In this work,
we propose EmotionGesture, a novel framework for synthesizing vivid and diverse
emotional co-speech 3D gestures from audio. Considering emotion is often
entangled with the rhythmic beat in speech audio, we first develop an
Emotion-Beat Mining module (EBM) to extract the emotion and audio beat features
as well as model their correlation via a transcript-based visual-rhythm
alignment. Then, we propose an initial pose based Spatial-Temporal Prompter
(STP) to generate future gestures from the given initial poses. STP effectively
models the spatial-temporal correlations between the initial poses and the
future gestures, thus producing the spatial-temporal coherent pose prompt. Once
we obtain pose prompts, emotion, and audio beat features, we will generate 3D
co-speech gestures through a transformer architecture. However, considering the
poses of existing datasets often contain jittering effects, this would lead to
generating unstable gestures. To address this issue, we propose an effective
objective function, dubbed Motion-Smooth Loss. Specifically, we model motion
offset to compensate for jittering ground-truth by forcing gestures to be
smooth. Last, we present an emotion-conditioned VAE to sample emotion features,
enabling us to generate diverse emotional results. Extensive experiments
demonstrate that our framework outperforms the state-of-the-art, achieving
vivid and diverse emotional co-speech 3D gestures.
- Abstract(参考訳): 鮮明で多様な3次元音声合成ジェスチャの生成は,仮想アバターのアニメーション化に不可欠である。
既存の方法の多くは、直接音声からジェスチャーを生成することができるが、感情が真の共同音声ジェスチャー生成の重要な要素の1つであることを見逃している。
本研究では,視覚的かつ多様な感情的な3Dジェスチャーを音声から合成する新しいフレームワークであるEmotionGestureを提案する。
音声のリズミカルビートに感情が絡み合うことを考えると、まず感情と音響ビートの特徴を抽出し、テキストベースの視覚リズムアライメントによって相関をモデル化する感情-ビートマイニングモジュール(EBM)を開発する。
次に,初期ポーズから将来のジェスチャーを生成するために,初期ポーズに基づく時空間プロンプタ(STP)を提案する。
STPは、初期ポーズと将来のジェスチャーの空間的時間的相関を効果的にモデル化し、空間的時間的コヒーレントなポーズプロンプトを生成する。
ポーズのプロンプト、感情、オーディオビート機能を得たら、トランスフォーマーアーキテクチャを通じて3d共同ジェスチャーを生成します。
しかし、既存のデータセットのポーズがジッタリング効果を含むことを考えると、不安定なジェスチャーが発生する。
この問題に対処するため,我々はモーションスムース損失と呼ばれる効果的な目的関数を提案する。
具体的には,動作オフセットをモデル化し,ジェスチャを滑らかにすることで地中を散らかすことを補う。
最後に、感情条件付きVAEを用いて感情特徴をサンプリングし、多様な感情結果を生成する。
広範な実験によって、我々のフレームワークは最先端を上回っており、鮮やかで多様な感情的な3dジェスチャを実現しています。
関連論文リスト
- Audio-Driven Emotional 3D Talking-Head Generation [47.6666060652434]
本稿では,高精度な感情表現による高忠実・音声駆動型映像像の合成システムを提案する。
本研究では,無声音声入力に応答して自然なアイドル状態(非話者)ビデオを生成するポーズサンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-07T08:23:05Z) - DEEPTalk: Dynamic Emotion Embedding for Probabilistic Speech-Driven 3D Face Animation [14.07086606183356]
音声駆動の3D顔アニメーションは、幅広い応用によって多くの注目を集めている。
現在の方法では、音声を通して伝達されるニュアンスな感情のアンダートーンを捉えることができず、単調な顔の動きを生成する。
音声入力から直接多様で感情的に豊かな表情を生成する新しいアプローチであるDEEPTalkを紹介する。
論文 参考訳(メタデータ) (2024-08-12T08:56:49Z) - EmoSpeaker: One-shot Fine-grained Emotion-Controlled Talking Face
Generation [34.5592743467339]
微粒な顔のアニメーションを生成する視覚属性誘導型オーディオデカップラを提案する。
より正確な感情表現を実現するために,よりきめ細かな感情係数予測モジュールを導入する。
提案手法であるEmoSpeakerは,表情の変動や唇の同期の点で,既存の感情音声生成法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-02T14:04:18Z) - DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for
Single Image Talking Face Generation [75.90730434449874]
DREAM-Talkは2段階の拡散に基づく音声駆動フレームワークで,多彩な表現と正確な唇同期の同時生成に適したフレームワークである。
唇の動きと音声との強い相関を考慮し、音声特徴と感情スタイルを用いて、唇同期精度を向上して力学を洗練する。
定量的かつ質的にも、DREAM-Talkは表現性、リップシンクの精度、知覚品質の点で最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-12-21T05:03:18Z) - Emotional Speech-driven 3D Body Animation via Disentangled Latent Diffusion [45.081371413693425]
音声から3次元人間のジェスチャーを合成する既存の手法は有望な結果を示した。
本稿では,潜在拡散に基づく感情音声駆動体アニメーションモデルAMUSEを提案する。
論文 参考訳(メタデータ) (2023-12-07T17:39:25Z) - Weakly-Supervised Emotion Transition Learning for Diverse 3D Co-speech Gesture Generation [43.04371187071256]
本研究では,3次元アバターにおける鮮明で感情的な3次元共同音声ジェスチャを生成する新しい手法を提案する。
そこで我々は,ChatGPT-4と音声インペインティング手法を用いて,高忠実度感情遷移音声を構築する。
本手法は,1つの感情条件に適応して構築した最先端モデルよりも優れる。
論文 参考訳(メタデータ) (2023-11-29T11:10:40Z) - Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。
EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文 参考訳(メタデータ) (2023-06-15T09:31:31Z) - Audio-Driven Co-Speech Gesture Video Generation [92.15661971086746]
音声駆動型音声合成におけるこの課題を定義し,検討する。
私たちの重要な洞察は、共同音声ジェスチャーは共通の動きパターンと微妙なリズムダイナミクスに分解できるということです。
本稿では,再利用可能な音声のジェスチャーパターンを効果的に捉えるための新しいフレームワークであるAudio-driveN Gesture vIdeo gEneration(ANGIE)を提案する。
論文 参考訳(メタデータ) (2022-12-05T15:28:22Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。