論文の概要: DiffMotion: Speech-Driven Gesture Synthesis Using Denoising Diffusion
Model
- arxiv url: http://arxiv.org/abs/2301.10047v1
- Date: Tue, 24 Jan 2023 14:44:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-25 13:24:57.861100
- Title: DiffMotion: Speech-Driven Gesture Synthesis Using Denoising Diffusion
Model
- Title(参考訳): DiffMotion:Denoising Diffusion Modelを用いた音声によるジェスチャー合成
- Authors: Fan Zhang, Naye Ji, Fuxing Gao, Yongping Li
- Abstract要約: 本稿では拡散モデルに基づく新しい音声駆動ジェスチャ合成アーキテクチャであるDiffMotionを提案する。
モデルは、自己回帰的時間エンコーダと、復調拡散確率モジュールとを備える。
主観的および主観的評価は,ベースラインと比較すると,本手法が自然および多種多様な妊娠を引き起こすことが確認された。
- 参考スコア(独自算出の注目度): 3.8084817124151726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech-driven gesture synthesis is a field of growing interest in virtual
human creation. However, a critical challenge is the inherent intricate
one-to-many mapping between speech and gestures. Previous studies have explored
and achieved significant progress with generative models. Notwithstanding, most
synthetic gestures are still vastly less natural. This paper presents
DiffMotion, a novel speech-driven gesture synthesis architecture based on
diffusion models. The model comprises an autoregressive temporal encoder and a
denoising diffusion probability Module. The encoder extracts the temporal
context of the speech input and historical gestures. The diffusion module
learns a parameterized Markov chain to gradually convert a simple distribution
into a complex distribution and generates the gestures according to the
accompanied speech. Compared with baselines, objective and subjective
evaluations confirm that our approach can produce natural and diverse
gesticulation and demonstrate the benefits of diffusion-based models on
speech-driven gesture synthesis.
- Abstract(参考訳): 音声によるジェスチャー合成は、仮想人間の創造に対する関心が高まっている分野である。
しかし、重要な課題は、音声とジェスチャーの複雑な1対1マッピングである。
以前の研究では、生成モデルによる大きな進歩を探求し、達成してきた。
ともあれ、ほとんどの合成ジェスチャーはいまだに自然ではない。
本稿では拡散モデルに基づく新しい音声駆動ジェスチャー合成アーキテクチャであるDiffMotionを提案する。
モデルは、自己回帰的時間エンコーダと、復調拡散確率モジュールとを備える。
エンコーダは、音声入力と歴史的なジェスチャーの時間的文脈を抽出する。
拡散モジュールはパラメータ化されたマルコフ連鎖を学習し、簡単な分布を徐々に複雑な分布に変換し、付随する音声に応じてジェスチャーを生成する。
主観的・主観的評価はベースラインと比較し,本手法が自然・多彩なジェスチレーションを生み出し,拡散モデルによるジェスチャ合成の利点を実証する。
関連論文リスト
- Spontaneous Style Text-to-Speech Synthesis with Controllable Spontaneous Behaviors Based on Language Models [55.898594710420326]
本稿では,言語モデルに基づく新たな自然音声合成システムを提案する。
自発音声における微妙な韻律変化を捉えるモデルの能力を高めるために, きめ細かい韻律モデリングを導入する。
論文 参考訳(メタデータ) (2024-07-18T13:42:38Z) - UnifiedGesture: A Unified Gesture Synthesis Model for Multiple Skeletons [16.52004713662265]
本稿では,異なる骨格を持つ複数のジェスチャーデータセットに基づいて学習した,拡散モデルに基づく音声駆動ジェスチャー合成手法を提案する。
次に、局所的注意と自己注意を用いた拡散モデルアーキテクチャに基づいて、音声とジェスチャーの相関関係を抽出する。
実験により、UnifiedGestureは、CCA、FGD、人間類似性の観点から、音声駆動ジェスチャ生成における最近のアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-09-13T16:07:25Z) - Diff-TTSG: Denoising probabilistic integrated speech and gesture
synthesis [19.35266496960533]
本稿では,Diff-TTSGと呼ばれる拡散型確率モデルについて述べる。
本稿では,統合音声とジェスチャー合成システムを評価するための,一様・多様主観的一様・多様主観的テストのセットについて述べる。
論文 参考訳(メタデータ) (2023-06-15T18:02:49Z) - Motion-Conditioned Diffusion Model for Controllable Video Synthesis [75.367816656045]
本稿では,開始画像フレームと一組のストロークから映像を生成する条件拡散モデルであるMCDiffを紹介する。
MCDiffはストローク誘導制御可能なビデオ合成における最先端の視覚的品質を実現する。
論文 参考訳(メタデータ) (2023-04-27T17:59:32Z) - DiffVoice: Text-to-Speech with Latent Diffusion [18.150627638754923]
本稿では,遅延拡散に基づく新しい音声合成モデルDiffVoiceを提案する。
LJSpeech と LibriTTS データセットの主観評価は,本手法が自然界で最高の公開システムに勝っていることを示す。
論文 参考訳(メタデータ) (2023-04-23T21:05:33Z) - A Survey on Audio Diffusion Models: Text To Speech Synthesis and
Enhancement in Generative AI [64.71397830291838]
生成AIは様々な分野で印象的な性能を示しており、音声合成は興味深い方向である。
拡散モデルを最も一般的な生成モデルとし、テキストから音声への拡張と音声への拡張という2つのアクティブなタスクを試みている。
本研究は,既存の調査を補完する音声拡散モデルに関する調査を行う。
論文 参考訳(メタデータ) (2023-03-23T15:17:15Z) - Co-Speech Gesture Synthesis using Discrete Gesture Token Learning [1.1694169299062596]
リアルな音声のジェスチャーを合成することは、信じられない動きを作り出す上で重要な問題であるが未解決の問題である。
共同音声ジェスチャーモデルを学ぶ上での課題の1つは、同一発話に対して複数の実行可能なジェスチャー動作が存在することである。
我々は、ジェスチャーセグメントを離散潜在符号としてモデル化することで、ジェスチャー合成におけるこの不確実性に対処する2段階モデルを提案した。
論文 参考訳(メタデータ) (2023-03-04T01:42:09Z) - Listen, Denoise, Action! Audio-Driven Motion Synthesis with Diffusion
Models [22.000197530493445]
拡散モデルは、音声と共起する人間の動きを合成するのに適していることを示す。
我々はDiffWaveアーキテクチャを3Dポーズシーケンスのモデル化に適用し、コンフォーマーを拡張畳み込みに代えてモデリング能力を向上させる。
ジェスチャーとダンス生成の実験により,提案手法が最上位の動作品質を実現することを確認した。
論文 参考訳(メタデータ) (2022-11-17T17:41:00Z) - Freeform Body Motion Generation from Speech [53.50388964591343]
音声から体の動きを生成することは、音声から体の動きへの非決定論的マッピングのために本質的に困難である。
2ストリームアーキテクチャを組み込んだ新しいフリーフォームモーション生成モデル(FreeMo)を提案する。
実験は、いくつかのベースラインに対して優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-04T13:03:22Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Towards Multi-Scale Style Control for Expressive Speech Synthesis [60.08928435252417]
提案手法では,マルチスケール参照エンコーダを用いて,対象音声のグローバルな発話レベルと局所的な準音素レベルの特徴を抽出する。
訓練期間中、マルチスケールスタイルモデルは、エンドツーエンドで音声合成モデルと共同で訓練することができる。
論文 参考訳(メタデータ) (2021-04-08T05:50:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。