論文の概要: DiffMotion: Speech-Driven Gesture Synthesis Using Denoising Diffusion
Model
- arxiv url: http://arxiv.org/abs/2301.10047v1
- Date: Tue, 24 Jan 2023 14:44:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-25 13:24:57.861100
- Title: DiffMotion: Speech-Driven Gesture Synthesis Using Denoising Diffusion
Model
- Title(参考訳): DiffMotion:Denoising Diffusion Modelを用いた音声によるジェスチャー合成
- Authors: Fan Zhang, Naye Ji, Fuxing Gao, Yongping Li
- Abstract要約: 本稿では拡散モデルに基づく新しい音声駆動ジェスチャ合成アーキテクチャであるDiffMotionを提案する。
モデルは、自己回帰的時間エンコーダと、復調拡散確率モジュールとを備える。
主観的および主観的評価は,ベースラインと比較すると,本手法が自然および多種多様な妊娠を引き起こすことが確認された。
- 参考スコア(独自算出の注目度): 3.8084817124151726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech-driven gesture synthesis is a field of growing interest in virtual
human creation. However, a critical challenge is the inherent intricate
one-to-many mapping between speech and gestures. Previous studies have explored
and achieved significant progress with generative models. Notwithstanding, most
synthetic gestures are still vastly less natural. This paper presents
DiffMotion, a novel speech-driven gesture synthesis architecture based on
diffusion models. The model comprises an autoregressive temporal encoder and a
denoising diffusion probability Module. The encoder extracts the temporal
context of the speech input and historical gestures. The diffusion module
learns a parameterized Markov chain to gradually convert a simple distribution
into a complex distribution and generates the gestures according to the
accompanied speech. Compared with baselines, objective and subjective
evaluations confirm that our approach can produce natural and diverse
gesticulation and demonstrate the benefits of diffusion-based models on
speech-driven gesture synthesis.
- Abstract(参考訳): 音声によるジェスチャー合成は、仮想人間の創造に対する関心が高まっている分野である。
しかし、重要な課題は、音声とジェスチャーの複雑な1対1マッピングである。
以前の研究では、生成モデルによる大きな進歩を探求し、達成してきた。
ともあれ、ほとんどの合成ジェスチャーはいまだに自然ではない。
本稿では拡散モデルに基づく新しい音声駆動ジェスチャー合成アーキテクチャであるDiffMotionを提案する。
モデルは、自己回帰的時間エンコーダと、復調拡散確率モジュールとを備える。
エンコーダは、音声入力と歴史的なジェスチャーの時間的文脈を抽出する。
拡散モジュールはパラメータ化されたマルコフ連鎖を学習し、簡単な分布を徐々に複雑な分布に変換し、付随する音声に応じてジェスチャーを生成する。
主観的・主観的評価はベースラインと比較し,本手法が自然・多彩なジェスチレーションを生み出し,拡散モデルによるジェスチャ合成の利点を実証する。
関連論文リスト
- SeqDiffuSeq: Text Diffusion with Encoder-Decoder Transformers [50.90457644954857]
本研究では,拡散モデルを用いてシーケンス・ツー・シーケンスのテキスト生成を行う。
シーケンス・ツー・シーケンス生成のためのテキスト拡散モデルであるSeqDiffuSeqを提案する。
実験結果は、テキストの品質と推論時間の観点から、シーケンス・ツー・シーケンス生成の優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-20T15:16:24Z) - MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis [73.52948992990191]
MoFusionは、高品質な条件付き人間のモーション合成のための新しいノイズ拡散ベースのフレームワークである。
本研究では,運動拡散フレームワーク内での運動可視性に対して,よく知られたキネマティック損失を導入する方法を提案する。
文献の確立されたベンチマークにおけるMoFusionの有効性を,技術の現状と比較した。
論文 参考訳(メタデータ) (2022-12-08T18:59:48Z) - Listen, denoise, action! Audio-driven motion synthesis with diffusion
models [22.000197530493445]
ディフュージョンモデルは、音声と共起する人間の動きを合成するのに適していることを示す。
我々はDiffWaveアーキテクチャを3Dポーズシーケンスのモデル化に適用し、コンフォーマーを拡張畳み込みに代えて精度を向上させる。
Trinity Speech-GestureとZeroEGGSデータセットの実験により,提案手法が最上位の動作品質を実現することを確認した。
論文 参考訳(メタデータ) (2022-11-17T17:41:00Z) - TransFusion: Transcribing Speech with Multinomial Diffusion [20.165433724198937]
本研究では,事前学習した音声特徴に基づく拡散モデルを用いて音声認識を行う手法を提案する。
我々は,LibriSpeech音声認識ベンチマークにおいて,既存の高性能コントラストモデルに匹敵する性能を示す。
また,多項拡散モデルのサンプリングと復号化を効果的に行う新しい手法を提案する。
論文 参考訳(メタデータ) (2022-10-14T10:01:43Z) - Freeform Body Motion Generation from Speech [53.50388964591343]
音声から体の動きを生成することは、音声から体の動きへの非決定論的マッピングのために本質的に困難である。
2ストリームアーキテクチャを組み込んだ新しいフリーフォームモーション生成モデル(FreeMo)を提案する。
実験は、いくつかのベースラインに対して優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-04T13:03:22Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Ctrl-P: Temporal Control of Prosodic Variation for Speech Synthesis [68.76620947298595]
テキストは音声形式を完全には規定しないので、テキストから音声へのモデルは、対応するテキストで説明されない方法で異なる音声データから学習できなければならない。
韻律の3つの一次音響相関に明示的に条件付けされた音声を生成するモデルを提案する。
論文 参考訳(メタデータ) (2021-06-15T18:03:48Z) - Towards Multi-Scale Style Control for Expressive Speech Synthesis [60.08928435252417]
提案手法では,マルチスケール参照エンコーダを用いて,対象音声のグローバルな発話レベルと局所的な準音素レベルの特徴を抽出する。
訓練期間中、マルチスケールスタイルモデルは、エンドツーエンドで音声合成モデルと共同で訓練することができる。
論文 参考訳(メタデータ) (2021-04-08T05:50:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。