論文の概要: Listen, denoise, action! Audio-driven motion synthesis with diffusion
models
- arxiv url: http://arxiv.org/abs/2211.09707v1
- Date: Thu, 17 Nov 2022 17:41:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 16:11:50.662197
- Title: Listen, denoise, action! Audio-driven motion synthesis with diffusion
models
- Title(参考訳): 聞いて デノワーズ アクション!
拡散モデルを用いた音声駆動モーション合成
- Authors: Simon Alexanderson, Rajmund Nagy, Jonas Beskow, Gustav Eje Henter
- Abstract要約: ディフュージョンモデルは、音声と共起する人間の動きを合成するのに適していることを示す。
我々はDiffWaveアーキテクチャを3Dポーズシーケンスのモデル化に適用し、コンフォーマーを拡張畳み込みに代えて精度を向上させる。
Trinity Speech-GestureとZeroEGGSデータセットの実験により,提案手法が最上位の動作品質を実現することを確認した。
- 参考スコア(独自算出の注目度): 22.000197530493445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have experienced a surge of interest as highly expressive
yet efficiently trainable probabilistic models. We show that these models are
an excellent fit for synthesising human motion that co-occurs with audio, for
example co-speech gesticulation, since motion is complex and highly ambiguous
given audio, calling for a probabilistic description. Specifically, we adapt
the DiffWave architecture to model 3D pose sequences, putting Conformers in
place of dilated convolutions for improved accuracy. We also demonstrate
control over motion style, using classifier-free guidance to adjust the
strength of the stylistic expression. Gesture-generation experiments on the
Trinity Speech-Gesture and ZeroEGGS datasets confirm that the proposed method
achieves top-of-the-line motion quality, with distinctive styles whose
expression can be made more or less pronounced. We also synthesise dance motion
and path-driven locomotion using the same model architecture. Finally, we
extend the guidance procedure to perform style interpolation in a manner that
is appealing for synthesis tasks and has connections to product-of-experts
models, a contribution we believe is of independent interest. Video examples
are available at https://www.speech.kth.se/research/listen-denoise-action/
- Abstract(参考訳): 拡散モデルは非常に表現力が高く、効率的に訓練可能な確率モデルとして関心を集めている。
これらのモデルは,音声と協調する人間の動作を合成するのに適しており,動作は複雑であいまいな音声であるため,確率的記述を求める。
具体的には、DiffWaveアーキテクチャを3Dポーズシーケンスのモデル化に適用し、コンフォーマーを拡張畳み込みに代えて精度を向上させる。
また,文体表現の強みを調整するために,分類器のない指導法を用いて,動作スタイルの制御を示す。
ジェスチャ生成によるtrinity speech-gestureおよびzeroeggsデータセットの実験により、提案手法が、多かれ少なかれ発音可能な独特のスタイルで、最上位の動作品質を達成できることが確認された。
同じモデルアーキテクチャを用いてダンスモーションとパス駆動ロコモーションを合成する。
最後に,合成タスクにアピールし,製品・オブ・エキスパートズモデルとの関連性を有する方法で,スタイル補間を行うための指導手順を拡張する。
ビデオ例はhttps://www.speech.kth.se/research/listen-denoise-action/で公開されている。
関連論文リスト
- From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - SpeechAct: Towards Generating Whole-body Motion from Speech [33.10601371020488]
本稿では,音声から全身の動きを生成する問題に対処する。
本稿では,高精度かつ連続的な動き生成を実現するために,新しいハイブリッド・ポイント表現を提案する。
また,モデルがより独特な表現を生成することを奨励するコントラッシブ・モーション・ラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-11-29T07:57:30Z) - Motion-Conditioned Diffusion Model for Controllable Video Synthesis [75.367816656045]
本稿では,開始画像フレームと一組のストロークから映像を生成する条件拡散モデルであるMCDiffを紹介する。
MCDiffはストローク誘導制御可能なビデオ合成における最先端の視覚的品質を実現する。
論文 参考訳(メタデータ) (2023-04-27T17:59:32Z) - DiffMotion: Speech-Driven Gesture Synthesis Using Denoising Diffusion
Model [3.8084817124151726]
本稿では拡散モデルに基づく新しい音声駆動ジェスチャ合成アーキテクチャであるDiffMotionを提案する。
モデルは、自己回帰的時間エンコーダと、復調拡散確率モジュールとを備える。
主観的および主観的評価は,ベースラインと比較すると,本手法が自然および多種多様な妊娠を引き起こすことが確認された。
論文 参考訳(メタデータ) (2023-01-24T14:44:03Z) - Generating Holistic 3D Human Motion from Speech [97.11392166257791]
同期音声を用いた3次元全体体メッシュの高品質データセットを構築した。
次に,顔,体,手が別々にモデル化される新しい音声合成フレームワークを定義する。
論文 参考訳(メタデータ) (2022-12-08T17:25:19Z) - Diffusion Motion: Generate Text-Guided 3D Human Motion by Diffusion
Model [7.381316531478522]
本稿では,複雑な自然言語文から3次元人物の動きを生成するための,シンプルで斬新な手法を提案する。
テキストの指導の下で様々な動作結果を生成するために,Denoising Diffusion Probabilistic Model を用いる。
我々の実験は,HumanML3Dテストセットにおけるモデル競合の結果を定量的に検証し,より視覚的に自然で多様な例を生成できることを実証した。
論文 参考訳(メタデータ) (2022-10-22T00:41:17Z) - Denoising Diffusion Probabilistic Models for Styled Walking Synthesis [9.789705536694665]
本稿では,拡散確率モデル(DDPM)を用いて人体動作を合成するフレームワークを提案する。
実験結果から,本システムは高品質かつ多様な歩行運動を生成できることが示唆された。
論文 参考訳(メタデータ) (2022-09-29T14:45:33Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Freeform Body Motion Generation from Speech [53.50388964591343]
音声から体の動きを生成することは、音声から体の動きへの非決定論的マッピングのために本質的に困難である。
2ストリームアーキテクチャを組み込んだ新しいフリーフォームモーション生成モデル(FreeMo)を提案する。
実験は、いくつかのベースラインに対して優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-04T13:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。