論文の概要: Weakly-Supervised Emotion Transition Learning for Diverse 3D Co-speech
Gesture Generation
- arxiv url: http://arxiv.org/abs/2311.17532v1
- Date: Wed, 29 Nov 2023 11:10:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 21:43:18.282012
- Title: Weakly-Supervised Emotion Transition Learning for Diverse 3D Co-speech
Gesture Generation
- Title(参考訳): 逆3次元音声合成のための弱教師付き感情遷移学習
- Authors: Xingqun Qi, Jiahao Pan, Peng Li, Ruibin Yuan, Xiaowei Chi, Mengfei Li,
Wenhan Luo, Wei Xue, Shanghang Zhang, Qifeng Liu, Yike Guo
- Abstract要約: 本稿では,仮想アバターにおける鮮明で感情的な3次元音声合成手法を提案する。
本稿ではまず,ChatGPT-4と音声インペインティング手法を用いて,高忠実度感情遷移音声の構築を行う。
また,権威のジェスチャー移行を促進するために,弱教師付きトレーニング戦略を提案する。
- 参考スコア(独自算出の注目度): 44.324828591922945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating vivid and emotional 3D co-speech gestures is crucial for virtual
avatar animation in human-machine interaction applications. While the existing
methods enable generating the gestures to follow a single emotion label, they
overlook that long gesture sequence modeling with emotion transition is more
practical in real scenes. In addition, the lack of large-scale available
datasets with emotional transition speech and corresponding 3D human gestures
also limits the addressing of this task. To fulfill this goal, we first
incorporate the ChatGPT-4 and an audio inpainting approach to construct the
high-fidelity emotion transition human speeches. Considering obtaining the
realistic 3D pose annotations corresponding to the dynamically inpainted
emotion transition audio is extremely difficult, we propose a novel weakly
supervised training strategy to encourage authority gesture transitions.
Specifically, to enhance the coordination of transition gestures w.r.t
different emotional ones, we model the temporal association representation
between two different emotional gesture sequences as style guidance and infuse
it into the transition generation. We further devise an emotion mixture
mechanism that provides weak supervision based on a learnable mixed emotion
label for transition gestures. Last, we present a keyframe sampler to supply
effective initial posture cues in long sequences, enabling us to generate
diverse gestures. Extensive experiments demonstrate that our method outperforms
the state-of-the-art models constructed by adapting single emotion-conditioned
counterparts on our newly defined emotion transition task and datasets.
- Abstract(参考訳): 人-機械インタラクションアプリケーションにおける仮想アバターアニメーションには、鮮明で感情的な3D合成ジェスチャーの生成が不可欠である。
既存の方法では、単一の感情ラベルに従うジェスチャーを生成することができるが、実際のシーンでは、感情遷移を伴う長いジェスチャーシーケンスモデリングの方が実用的である。
さらに、感情的遷移音声とそれに対応する3D人間のジェスチャーを備えた大規模データセットの欠如により、このタスクのアドレッシングも制限される。
この目的を達成するために、我々はまずChatGPT-4と音声塗装アプローチを取り入れ、高忠実度感情遷移人間の音声を構築する。
動的に塗布された感情遷移音声に対応するリアルな3Dポーズアノテーションを得るのは非常に難しいことを考慮し、権威のジェスチャー遷移を促進するための弱い教師付きトレーニング戦略を提案する。
具体的には,遷移ジェスチャw.r.tが異なる感情ジェスチャのコーディネーションを強化するために,2つの異なる感情ジェスチャシーケンス間の時間的関連表現をスタイルガイダンスとしてモデル化し,遷移生成に組み込む。
さらに、遷移ジェスチャーのための学習可能な混合感情ラベルに基づいて、弱い監視を提供する感情混合機構を考案する。
最後に,キーフレーム・サンプラーを用いて,長いシーケンスで効果的な初期姿勢情報を提供し,多様なジェスチャを生成できる。
提案手法は,新たに定義された感情遷移タスクとデータセットに単一の感情条件を適応させることによって構築された最先端モデルよりも優れることを示す。
関連論文リスト
- EMOdiffhead: Continuously Emotional Control in Talking Head Generation via Diffusion [5.954758598327494]
EMOdiffhead(エモディフヘッド)は、感情的なトーキングヘッドビデオ生成のための新しい方法である。
感情のカテゴリや強度のきめ細かい制御を可能にする。
他の感情像アニメーション法と比較して、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-09-11T13:23:22Z) - DEEPTalk: Dynamic Emotion Embedding for Probabilistic Speech-Driven 3D Face Animation [14.07086606183356]
音声駆動の3D顔アニメーションは、幅広い応用によって多くの注目を集めている。
現在の方法では、音声を通して伝達されるニュアンスな感情のアンダートーンを捉えることができず、単調な顔の動きを生成する。
音声入力から直接多様で感情的に豊かな表情を生成する新しいアプローチであるDEEPTalkを紹介する。
論文 参考訳(メタデータ) (2024-08-12T08:56:49Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - EmoSpeaker: One-shot Fine-grained Emotion-Controlled Talking Face
Generation [34.5592743467339]
微粒な顔のアニメーションを生成する視覚属性誘導型オーディオデカップラを提案する。
より正確な感情表現を実現するために,よりきめ細かな感情係数予測モジュールを導入する。
提案手法であるEmoSpeakerは,表情の変動や唇の同期の点で,既存の感情音声生成法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-02T14:04:18Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Emotional Speech-driven 3D Body Animation via Disentangled Latent Diffusion [45.081371413693425]
音声から3次元人間のジェスチャーを合成する既存の手法は有望な結果を示した。
本稿では,潜在拡散に基づく感情音声駆動体アニメーションモデルAMUSEを提案する。
論文 参考訳(メタデータ) (2023-12-07T17:39:25Z) - Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。
EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文 参考訳(メタデータ) (2023-06-15T09:31:31Z) - EmotionGesture: Audio-Driven Diverse Emotional Co-Speech 3D Gesture
Generation [24.547098909937034]
EmotionGestureは、オーディオから、鮮明で多様な感情的な3Dジェスチャーを合成するための新しいフレームワークである。
我々のフレームワークは最先端の3Dジェスチャーよりも優れており、鮮明で多様な感情的な3Dジェスチャーを実現している。
論文 参考訳(メタデータ) (2023-05-30T09:47:29Z) - Audio-Driven Co-Speech Gesture Video Generation [92.15661971086746]
音声駆動型音声合成におけるこの課題を定義し,検討する。
私たちの重要な洞察は、共同音声ジェスチャーは共通の動きパターンと微妙なリズムダイナミクスに分解できるということです。
本稿では,再利用可能な音声のジェスチャーパターンを効果的に捉えるための新しいフレームワークであるAudio-driveN Gesture vIdeo gEneration(ANGIE)を提案する。
論文 参考訳(メタデータ) (2022-12-05T15:28:22Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。