論文の概要: Taming Diffusion Models for Audio-Driven Co-Speech Gesture Generation
- arxiv url: http://arxiv.org/abs/2303.09119v2
- Date: Sat, 18 Mar 2023 10:11:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 11:41:39.202656
- Title: Taming Diffusion Models for Audio-Driven Co-Speech Gesture Generation
- Title(参考訳): 音声駆動型音声合成のための拡散モデル
- Authors: Lingting Zhu, Xian Liu, Xuanyu Liu, Rui Qian, Ziwei Liu, Lequan Yu
- Abstract要約: DiffGesture (DiffGesture) という,拡散に基づく新しいフレームワークを提案する。
DiffGestureは、より優れたモードカバレッジとより強力なオーディオ相関を備えたコヒーレントなジェスチャーをレンダリングする、最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 41.292644854306594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Animating virtual avatars to make co-speech gestures facilitates various
applications in human-machine interaction. The existing methods mainly rely on
generative adversarial networks (GANs), which typically suffer from notorious
mode collapse and unstable training, thus making it difficult to learn accurate
audio-gesture joint distributions. In this work, we propose a novel
diffusion-based framework, named Diffusion Co-Speech Gesture (DiffGesture), to
effectively capture the cross-modal audio-to-gesture associations and preserve
temporal coherence for high-fidelity audio-driven co-speech gesture generation.
Specifically, we first establish the diffusion-conditional generation process
on clips of skeleton sequences and audio to enable the whole framework. Then, a
novel Diffusion Audio-Gesture Transformer is devised to better attend to the
information from multiple modalities and model the long-term temporal
dependency. Moreover, to eliminate temporal inconsistency, we propose an
effective Diffusion Gesture Stabilizer with an annealed noise sampling
strategy. Benefiting from the architectural advantages of diffusion models, we
further incorporate implicit classifier-free guidance to trade off between
diversity and gesture quality. Extensive experiments demonstrate that
DiffGesture achieves state-of-theart performance, which renders coherent
gestures with better mode coverage and stronger audio correlations. Code is
available at https://github.com/Advocate99/DiffGesture.
- Abstract(参考訳): 仮想アバターをアニメーションして音声ジェスチャーを作成することで、人間と機械の相互作用に様々な応用が期待できる。
既存の手法は主にGAN(Generative Adversarial Network)に依存しており、これは一般的に悪名高いモード崩壊と不安定なトレーニングに悩まされるため、正確なオーディオ・ジェスチャーの関節分布の学習が困難である。
本研究では,クロスモーダルな音声とジェスチャの関連を効果的に捉え,高忠実度音声駆動型ジェスチャ生成のための時間的コヒーレンスを保ちながら,拡散コペーチジェスチャ(diffgesture)という新しい拡散ベースフレームワークを提案する。
具体的には,まずスケルトンシーケンスと音声のクリップ上に拡散条件生成プロセスを確立し,フレームワーク全体を有効化する。
そして,複数のモーダルからの情報によりよく対応し,長期の時間依存性をモデル化するために,新しい拡散型音声ジェスチャ変換器が考案された。
さらに,時間的不整合を解消するために,アニールノイズサンプリング方式による有効拡散ジェスチャー安定化器を提案する。
拡散モデルのアーキテクチャ上の利点を活かして,多様性とジェスチャー品質をトレードオフする暗黙の分類子なし指導を取り入れた。
DiffGestureは、より優れたモードカバレッジとより強力な音声相関でコヒーレントなジェスチャーをレンダリングし、最先端のパフォーマンスを実現する。
コードはhttps://github.com/advocate99/diffgestureで入手できる。
関連論文リスト
- DiffTED: One-shot Audio-driven TED Talk Video Generation with Diffusion-based Co-speech Gestures [27.763304632981882]
DiffTEDは、1つの画像から1ショットの音声駆動音声ビデオを生成する新しいアプローチである。
我々は拡散モデルを利用して、薄膜スプライン運動モデルのためのキーポイントのシーケンスを生成する。
実験により、DiffTEDは多様な音声のジェスチャーによる時間的コヒーレントな会話ビデオを生成することが示された。
論文 参考訳(メタデータ) (2024-09-11T22:31:55Z) - A Versatile Diffusion Transformer with Mixture of Noise Levels for Audiovisual Generation [32.648815593259485]
オーディオヴィジュアルシーケンスのためのトレーニング拡散モデルは、様々な生成タスクを可能にする。
聴覚空間における任意の条件分布を効果的に学習するための新しい学習手法を提案する。
論文 参考訳(メタデータ) (2024-05-22T15:47:14Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z) - TransFusion: Transcribing Speech with Multinomial Diffusion [20.165433724198937]
本研究では,事前学習した音声特徴に基づく拡散モデルを用いて音声認識を行う手法を提案する。
我々は,LibriSpeech音声認識ベンチマークにおいて,既存の高性能コントラストモデルに匹敵する性能を示す。
また,多項拡散モデルのサンプリングと復号化を効果的に行う新しい手法を提案する。
論文 参考訳(メタデータ) (2022-10-14T10:01:43Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。