論文の概要: EMoG: Synthesizing Emotive Co-speech 3D Gesture with Diffusion Model
- arxiv url: http://arxiv.org/abs/2306.11496v1
- Date: Tue, 20 Jun 2023 12:32:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 14:24:54.402775
- Title: EMoG: Synthesizing Emotive Co-speech 3D Gesture with Diffusion Model
- Title(参考訳): EMoG:拡散モデルによる運動性3Dジェスチャーの合成
- Authors: Lianying Yin, Yijun Wang, Tianyu He, Jinming Liu, Wei Zhao, Bohan Li,
Xin Jin, Jianxin Lin
- Abstract要約: 主な課題は,1) 音声内容とジェスチャーの1対多性,2) 身体関節間の相関モデルである。
本稿では,拡散モデルをデノナイズする上で,上記の課題に対処するための新しいフレームワーク(EMoG)を提案する。
提案手法は従来の手法を超越し,ジェスチャ合成においてかなり優れている。
- 参考スコア(独自算出の注目度): 27.159893117780577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although previous co-speech gesture generation methods are able to synthesize
motions in line with speech content, it is still not enough to handle diverse
and complicated motion distribution. The key challenges are: 1) the one-to-many
nature between the speech content and gestures; 2) the correlation modeling
between the body joints. In this paper, we present a novel framework (EMoG) to
tackle the above challenges with denoising diffusion models: 1) To alleviate
the one-to-many problem, we incorporate emotion clues to guide the generation
process, making the generation much easier; 2) To model joint correlation, we
propose to decompose the difficult gesture generation into two sub-problems:
joint correlation modeling and temporal dynamics modeling. Then, the two
sub-problems are explicitly tackled with our proposed Joint Correlation-aware
transFormer (JCFormer). Through extensive evaluations, we demonstrate that our
proposed method surpasses previous state-of-the-art approaches, offering
substantial superiority in gesture synthesis.
- Abstract(参考訳): 従来の共同音声ジェスチャ生成手法は、音声の内容に合わせて動きを合成できるが、多種多様な複雑な動き分布を扱うには十分ではない。
主な課題は:
1) 発話内容とジェスチャーの間の一対一の性質
2) 関節の相関モデルについて検討した。
本稿では,上記の拡散モデルにおける課題に取り組むための新しい枠組み(emog)を提案する。
1)一対多の問題を軽減するため、生成プロセスのガイドに感情手がかりを取り入れ、生成をより容易にする。
2)ジョイント相関をモデル化するために,ジョイント相関モデリングと時間力学モデリングの2つのサブプロブレムに分割する。
そして,2つのサブプロブレムは,提案したJCFormer(Joint correlation-aware transFormer)に明示的に取り組まれる。
広範な評価を通じて,提案手法が従来の最先端手法を上回っており,ジェスチャ合成において極めて優れていることを示す。
関連論文リスト
- Joint Co-Speech Gesture and Expressive Talking Face Generation using Diffusion with Adapters [29.785749048315616]
一つのネットワーク内での顔と体の動きを協調的に生成する新しいモデルアーキテクチャを提案する。
実験により,提案フレームワークは,最先端の音声合成と対話音声生成性能を維持できるだけでなく,必要なパラメータ数を大幅に削減できることを示した。
論文 参考訳(メタデータ) (2024-12-18T21:02:07Z) - Combo: Co-speech holistic 3D human motion generation and efficient customizable adaptation in harmony [55.26315526382004]
共同音声合成のための新しいフレームワークComboを提案する。
特に、興味の生成モデルにおけるマルチインプット・マルチプル・アウトプットの性質として、基本的な課題があげられる。
コンボは高品質な動きを生み出すのに非常に効果的であるが、アイデンティティや感情の伝達にも効果的である。
論文 参考訳(メタデータ) (2024-08-18T07:48:49Z) - Co-Speech Gesture Video Generation via Motion-Decoupled Diffusion Model [17.98911328064481]
共同音声ジェスチャーは、人間と機械の相互作用において優れた視覚効果を得ることができる。
共同音声ジェスチャビデオを生成するための新しい動き分離フレームワークを提案する。
提案手法は,動作評価と映像評価の両方において,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-02T11:40:34Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Diffusion-Based Co-Speech Gesture Generation Using Joint Text and Audio
Representation [18.04996323708772]
本稿では,2023年度のGenEA (Generation and Evaluation of Non-verbal Behaviour for Embodied Agents) Challengeのために開発されたシステムについて述べる。
本研究では,音声とジェスチャーの組込み学習を行うCSMPモジュールを提案する。
CSMPモジュールの出力は拡散に基づくジェスチャー合成モデルにおける条件付け信号として使用される。
論文 参考訳(メタデータ) (2023-09-11T13:51:06Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - A Survey on Audio Diffusion Models: Text To Speech Synthesis and
Enhancement in Generative AI [64.71397830291838]
生成AIは様々な分野で印象的な性能を示しており、音声合成は興味深い方向である。
拡散モデルを最も一般的な生成モデルとし、テキストから音声への拡張と音声への拡張という2つのアクティブなタスクを試みている。
本研究は,既存の調査を補完する音声拡散モデルに関する調査を行う。
論文 参考訳(メタデータ) (2023-03-23T15:17:15Z) - Human Motion Diffusion as a Generative Prior [20.004837564647367]
拡散先行に基づく3種類の合成法を提案する。
長いシーケンス生成の課題に取り組みます。
並列合成を用いて、2人の世代に向けた有望なステップを示す。
論文 参考訳(メタデータ) (2023-03-02T17:09:27Z) - DiffMotion: Speech-Driven Gesture Synthesis Using Denoising Diffusion
Model [3.8084817124151726]
本稿では拡散モデルに基づく新しい音声駆動ジェスチャ合成アーキテクチャであるDiffMotionを提案する。
モデルは、自己回帰的時間エンコーダと、復調拡散確率モジュールとを備える。
主観的および主観的評価は,ベースラインと比較すると,本手法が自然および多種多様な妊娠を引き起こすことが確認された。
論文 参考訳(メタデータ) (2023-01-24T14:44:03Z) - Freeform Body Motion Generation from Speech [53.50388964591343]
音声から体の動きを生成することは、音声から体の動きへの非決定論的マッピングのために本質的に困難である。
2ストリームアーキテクチャを組み込んだ新しいフリーフォームモーション生成モデル(FreeMo)を提案する。
実験は、いくつかのベースラインに対して優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-04T13:03:22Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。