論文の概要: Listen, Denoise, Action! Audio-Driven Motion Synthesis with Diffusion
Models
- arxiv url: http://arxiv.org/abs/2211.09707v2
- Date: Tue, 16 May 2023 17:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 19:25:42.498852
- Title: Listen, Denoise, Action! Audio-Driven Motion Synthesis with Diffusion
Models
- Title(参考訳): 聴いて、デノワーズ、アクション!
拡散モデルを用いた音声駆動モーション合成
- Authors: Simon Alexanderson, Rajmund Nagy, Jonas Beskow, Gustav Eje Henter
- Abstract要約: 拡散モデルは、音声と共起する人間の動きを合成するのに適していることを示す。
我々はDiffWaveアーキテクチャを3Dポーズシーケンスのモデル化に適用し、コンフォーマーを拡張畳み込みに代えてモデリング能力を向上させる。
ジェスチャーとダンス生成の実験により,提案手法が最上位の動作品質を実現することを確認した。
- 参考スコア(独自算出の注目度): 22.000197530493445
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion models have experienced a surge of interest as highly expressive
yet efficiently trainable probabilistic models. We show that these models are
an excellent fit for synthesising human motion that co-occurs with audio, e.g.,
dancing and co-speech gesticulation, since motion is complex and highly
ambiguous given audio, calling for a probabilistic description. Specifically,
we adapt the DiffWave architecture to model 3D pose sequences, putting
Conformers in place of dilated convolutions for improved modelling power. We
also demonstrate control over motion style, using classifier-free guidance to
adjust the strength of the stylistic expression. Experiments on gesture and
dance generation confirm that the proposed method achieves top-of-the-line
motion quality, with distinctive styles whose expression can be made more or
less pronounced. We also synthesise path-driven locomotion using the same model
architecture. Finally, we generalise the guidance procedure to obtain
product-of-expert ensembles of diffusion models and demonstrate how these may
be used for, e.g., style interpolation, a contribution we believe is of
independent interest. See
https://www.speech.kth.se/research/listen-denoise-action/ for video examples,
data, and code.
- Abstract(参考訳): 拡散モデルは非常に表現力が高く、効率的に訓練可能な確率モデルとして関心を集めている。
これらのモデルは, 動作が複雑であいまいな音声であり, 確率的記述を求めるため, ダンスや協調ジェスチレーションなど, 音声と共生する人間の運動を合成するのに最適であることを示す。
具体的には、DiffWaveアーキテクチャを3Dポーズシーケンスのモデル化に適用し、コンフォーマーを拡張畳み込みに代えてモデリング能力を向上させる。
また,文体表現の強みを調整するために,分類器のない指導法を用いて,動作スタイルの制御を示す。
ジェスチャーとダンス生成の実験により,提案手法は,表現を多かれ少なかれ発音できる独特のスタイルで,最上位の動作品質を実現することを確認した。
また,同じモデルアーキテクチャを用いて経路駆動ロコモーションを合成する。
最後に,拡散モデルの製品・オブ・エキスパート・アンサンブルを得るための指導手順を一般化し,それらがどのようにしてスタイル補間(スタイル補間)に使用されるかを示す。
ビデオ例、データ、コードについてはhttps://www.speech.kth.se/research/listen-denoise-action/を参照。
関連論文リスト
- From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - SpeechAct: Towards Generating Whole-body Motion from Speech [33.10601371020488]
本稿では,音声から全身の動きを生成する問題に対処する。
本稿では,高精度かつ連続的な動き生成を実現するために,新しいハイブリッド・ポイント表現を提案する。
また,モデルがより独特な表現を生成することを奨励するコントラッシブ・モーション・ラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-11-29T07:57:30Z) - Motion-Conditioned Diffusion Model for Controllable Video Synthesis [75.367816656045]
本稿では,開始画像フレームと一組のストロークから映像を生成する条件拡散モデルであるMCDiffを紹介する。
MCDiffはストローク誘導制御可能なビデオ合成における最先端の視覚的品質を実現する。
論文 参考訳(メタデータ) (2023-04-27T17:59:32Z) - DiffMotion: Speech-Driven Gesture Synthesis Using Denoising Diffusion
Model [3.8084817124151726]
本稿では拡散モデルに基づく新しい音声駆動ジェスチャ合成アーキテクチャであるDiffMotionを提案する。
モデルは、自己回帰的時間エンコーダと、復調拡散確率モジュールとを備える。
主観的および主観的評価は,ベースラインと比較すると,本手法が自然および多種多様な妊娠を引き起こすことが確認された。
論文 参考訳(メタデータ) (2023-01-24T14:44:03Z) - Generating Holistic 3D Human Motion from Speech [97.11392166257791]
同期音声を用いた3次元全体体メッシュの高品質データセットを構築した。
次に,顔,体,手が別々にモデル化される新しい音声合成フレームワークを定義する。
論文 参考訳(メタデータ) (2022-12-08T17:25:19Z) - Diffusion Motion: Generate Text-Guided 3D Human Motion by Diffusion
Model [7.381316531478522]
本稿では,複雑な自然言語文から3次元人物の動きを生成するための,シンプルで斬新な手法を提案する。
テキストの指導の下で様々な動作結果を生成するために,Denoising Diffusion Probabilistic Model を用いる。
我々の実験は,HumanML3Dテストセットにおけるモデル競合の結果を定量的に検証し,より視覚的に自然で多様な例を生成できることを実証した。
論文 参考訳(メタデータ) (2022-10-22T00:41:17Z) - Denoising Diffusion Probabilistic Models for Styled Walking Synthesis [9.789705536694665]
本稿では,拡散確率モデル(DDPM)を用いて人体動作を合成するフレームワークを提案する。
実験結果から,本システムは高品質かつ多様な歩行運動を生成できることが示唆された。
論文 参考訳(メタデータ) (2022-09-29T14:45:33Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Freeform Body Motion Generation from Speech [53.50388964591343]
音声から体の動きを生成することは、音声から体の動きへの非決定論的マッピングのために本質的に困難である。
2ストリームアーキテクチャを組み込んだ新しいフリーフォームモーション生成モデル(FreeMo)を提案する。
実験は、いくつかのベースラインに対して優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-04T13:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。