論文の概要: Taming Diffusion Models for Audio-Driven Co-Speech Gesture Generation
- arxiv url: http://arxiv.org/abs/2303.09119v1
- Date: Thu, 16 Mar 2023 07:32:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 16:25:51.272986
- Title: Taming Diffusion Models for Audio-Driven Co-Speech Gesture Generation
- Title(参考訳): 音声駆動型音声合成のための拡散モデル
- Authors: Lingting Zhu, Xian Liu, Xuanyu Liu, Rui Qian, Ziwei Liu, Lequan Yu
- Abstract要約: DiffGesture (DiffGesture) という,拡散に基づく新しいフレームワークを提案する。
DiffGestureは、より優れたモードカバレッジとより強力なオーディオ相関を備えたコヒーレントなジェスチャーをレンダリングする、最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 41.292644854306594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Animating virtual avatars to make co-speech gestures facilitates various
applications in human-machine interaction. The existing methods mainly rely on
generative adversarial networks (GANs), which typically suffer from notorious
mode collapse and unstable training, thus making it difficult to learn accurate
audio-gesture joint distributions. In this work, we propose a novel
diffusion-based framework, named Diffusion Co-Speech Gesture (DiffGesture), to
effectively capture the cross-modal audio-to-gesture associations and preserve
temporal coherence for high-fidelity audio-driven co-speech gesture generation.
Specifically, we first establish the diffusion-conditional generation process
on clips of skeleton sequences and audio to enable the whole framework. Then, a
novel Diffusion Audio-Gesture Transformer is devised to better attend to the
information from multiple modalities and model the long-term temporal
dependency. Moreover, to eliminate temporal inconsistency, we propose an
effective Diffusion Gesture Stabilizer with an annealed noise sampling
strategy. Benefiting from the architectural advantages of diffusion models, we
further incorporate implicit classifier-free guidance to trade off between
diversity and gesture quality. Extensive experiments demonstrate that
DiffGesture achieves state-of-theart performance, which renders coherent
gestures with better mode coverage and stronger audio correlations. Code is
available at https://github.com/Advocate99/DiffGesture.
- Abstract(参考訳): 仮想アバターをアニメーションして音声ジェスチャーを作成することで、人間と機械の相互作用に様々な応用が期待できる。
既存の手法は主にGAN(Generative Adversarial Network)に依存しており、これは一般的に悪名高いモード崩壊と不安定なトレーニングに悩まされるため、正確なオーディオ・ジェスチャーの関節分布の学習が困難である。
本研究では,クロスモーダルな音声とジェスチャの関連を効果的に捉え,高忠実度音声駆動型ジェスチャ生成のための時間的コヒーレンスを保ちながら,拡散コペーチジェスチャ(diffgesture)という新しい拡散ベースフレームワークを提案する。
具体的には,まずスケルトンシーケンスと音声のクリップ上に拡散条件生成プロセスを確立し,フレームワーク全体を有効化する。
そして,複数のモーダルからの情報によりよく対応し,長期の時間依存性をモデル化するために,新しい拡散型音声ジェスチャ変換器が考案された。
さらに,時間的不整合を解消するために,アニールノイズサンプリング方式による有効拡散ジェスチャー安定化器を提案する。
拡散モデルのアーキテクチャ上の利点を活かして,多様性とジェスチャー品質をトレードオフする暗黙の分類子なし指導を取り入れた。
DiffGestureは、より優れたモードカバレッジとより強力な音声相関でコヒーレントなジェスチャーをレンダリングし、最先端のパフォーマンスを実現する。
コードはhttps://github.com/advocate99/diffgestureで入手できる。
関連論文リスト
- DiffMotion: Speech-Driven Gesture Synthesis Using Denoising Diffusion
Model [3.8084817124151726]
本稿では拡散モデルに基づく新しい音声駆動ジェスチャ合成アーキテクチャであるDiffMotionを提案する。
モデルは、自己回帰的時間エンコーダと、復調拡散確率モジュールとを備える。
主観的および主観的評価は,ベースラインと比較すると,本手法が自然および多種多様な妊娠を引き起こすことが確認された。
論文 参考訳(メタデータ) (2023-01-24T14:44:03Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z) - Semantic-Conditional Diffusion Networks for Image Captioning [116.86677915812508]
画像キャプションに適した拡散モデルに基づく新しいパラダイム,すなわちセマンティック・コンディション・ディフュージョン・ネットワーク(SCD-Net)を提案する。
SCD-Netでは、複数の拡散変換器構造を積み重ねて、より優れた視覚言語アライメントと言語的コヒーレンスで出力文を徐々に強化する。
COCOデータセットの実験は、困難な画像キャプションタスクにおいて拡散モデルを使用することの有望な可能性を示している。
論文 参考訳(メタデータ) (2022-12-06T16:08:16Z) - DiffusionBERT: Improving Generative Masked Language Models with
Diffusion Models [81.84866217721361]
DiffusionBERTは離散拡散モデルに基づく新しい生成マスク付き言語モデルである。
本稿では,各ステップに付加される雑音の度合いを制御する前方拡散プロセスのための新しいノイズスケジュールを提案する。
非条件テキスト生成の実験では、DiffusionBERTは既存のテキスト拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-11-28T03:25:49Z) - Listen, denoise, action! Audio-driven motion synthesis with diffusion
models [22.000197530493445]
ディフュージョンモデルは、音声と共起する人間の動きを合成するのに適していることを示す。
我々はDiffWaveアーキテクチャを3Dポーズシーケンスのモデル化に適用し、コンフォーマーを拡張畳み込みに代えて精度を向上させる。
Trinity Speech-GestureとZeroEGGSデータセットの実験により,提案手法が最上位の動作品質を実現することを確認した。
論文 参考訳(メタデータ) (2022-11-17T17:41:00Z) - Analysing Diffusion-based Generative Approaches versus Discriminative
Approaches for Speech Restoration [16.09633286837904]
生成拡散モデルの性能と異なる音声復元作業における識別的アプローチを系統的に比較する。
生成的アプローチは、すべてのタスクにおいて、識別的アプローチよりも全世界的に優れていることを観察する。
論文 参考訳(メタデータ) (2022-11-04T12:06:14Z) - TransFusion: Transcribing Speech with Multinomial Diffusion [20.165433724198937]
本研究では,事前学習した音声特徴に基づく拡散モデルを用いて音声認識を行う手法を提案する。
我々は,LibriSpeech音声認識ベンチマークにおいて,既存の高性能コントラストモデルに匹敵する性能を示す。
また,多項拡散モデルのサンプリングと復号化を効果的に行う新しい手法を提案する。
論文 参考訳(メタデータ) (2022-10-14T10:01:43Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z) - Towards Realistic Visual Dubbing with Heterogeneous Sources [22.250010330418398]
口唇の動きを任意の音声入力と同期させることがほとんどない。
異種データのマイニングに高い柔軟性を持つ簡易で効率的な2段階のフレームワークを提案する。
本手法は,2段階のサブネットワークにおけるトレーニングコーパスを独立的に活用することを可能にする。
論文 参考訳(メタデータ) (2022-01-17T07:57:24Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。