論文の概要: Freeform Body Motion Generation from Speech
- arxiv url: http://arxiv.org/abs/2203.02291v1
- Date: Fri, 4 Mar 2022 13:03:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-07 16:23:24.982439
- Title: Freeform Body Motion Generation from Speech
- Title(参考訳): 音声からの自由形体運動生成
- Authors: Jing Xu, Wei Zhang, Yalong Bai, Qibin Sun, Tao Mei
- Abstract要約: 音声から体の動きを生成することは、音声から体の動きへの非決定論的マッピングのために本質的に困難である。
2ストリームアーキテクチャを組み込んだ新しいフリーフォームモーション生成モデル(FreeMo)を提案する。
実験は、いくつかのベースラインに対して優れたパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 53.50388964591343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: People naturally conduct spontaneous body motions to enhance their speeches
while giving talks. Body motion generation from speech is inherently difficult
due to the non-deterministic mapping from speech to body motions. Most existing
works map speech to motion in a deterministic way by conditioning on certain
styles, leading to sub-optimal results. Motivated by studies in linguistics, we
decompose the co-speech motion into two complementary parts: pose modes and
rhythmic dynamics. Accordingly, we introduce a novel freeform motion generation
model (FreeMo) by equipping a two-stream architecture, i.e., a pose mode branch
for primary posture generation, and a rhythmic motion branch for rhythmic
dynamics synthesis. On one hand, diverse pose modes are generated by
conditional sampling in a latent space, guided by speech semantics. On the
other hand, rhythmic dynamics are synced with the speech prosody. Extensive
experiments demonstrate the superior performance against several baselines, in
terms of motion diversity, quality and syncing with speech. Code and
pre-trained models will be publicly available through
https://github.com/TheTempAccount/Co-Speech-Motion-Generation.
- Abstract(参考訳): 人々は自然に体の動きを行い、講演しながらスピーチを強化する。
音声からの身体運動の生成は、音声から身体運動への非決定論的マッピングのため、本質的に困難である。
既存の作品の多くは、特定のスタイルを条件づけることで、音声を決定論的に表現し、準最適結果をもたらす。
言語学の研究に動機づけられ,協調動作はポーズモードとリズミカルダイナミクスの2つの相補的な部分に分けられる。
そこで,本研究では,2ストリームアーキテクチャ,すなわちプライマリ姿勢生成のためのポーズモード分岐,リズミカルダイナミクス合成のためのリズミカルモーションブランチを備えることで,新しいフリーフォームモーション生成モデル(FreeMo)を導入する。
一方,潜在空間における条件付サンプリングにより多彩なポーズモードが生成され,音声意味論が導かれる。
一方、リズミカルダイナミクスは音声韻律と同期する。
広範囲な実験は、動きの多様性、品質および音声との同期の観点から、いくつかのベースラインに対して優れた性能を示す。
コードと事前トレーニングされたモデルはhttps://github.com/TheTempAccount/Co-Speech-Motion-Generation.comから公開される。
関連論文リスト
- ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance [11.207513771079705]
本稿では,テキストと音声情報を同期して表現力のあるフルボディジェスチャーを生成する新しいフレームワークExpGestを紹介する。
AdaINやワンホットの符号化法とは異なり、対向方向雑音を最適化するためのノイズ感情分類器を設計する。
我々は, ExpGestが, 最先端モデルと比較して, 話者の表現力, 自然な, 制御可能なグローバルな動きを実現することを示す。
論文 参考訳(メタデータ) (2024-10-12T07:01:17Z) - Co-Speech Gesture Video Generation via Motion-Decoupled Diffusion Model [17.98911328064481]
共同音声ジェスチャーは、人間と機械の相互作用において優れた視覚効果を得ることができる。
共同音声ジェスチャビデオを生成するための新しい動き分離フレームワークを提案する。
提案手法は,動作評価と映像評価の両方において,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-02T11:40:34Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - Freetalker: Controllable Speech and Text-Driven Gesture Generation Based
on Diffusion Models for Enhanced Speaker Naturalness [45.90256126021112]
我々は、自然発生(例えば、共音声ジェスチャー)と非自然発生(例えば、表彰台を動き回る)の両方を生成するための最初のフレームワークであるFreeTalkerを紹介する。
具体的には、音声によるジェスチャーとテキストによる動作の統一表現を用いた話者動作生成のための拡散モデルについて訓練する。
論文 参考訳(メタデータ) (2024-01-07T13:01:29Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - QPGesture: Quantization-Based and Phase-Guided Motion Matching for
Natural Speech-Driven Gesture Generation [8.604430209445695]
音声によるジェスチャー生成は、人間の動きのランダムなジッタのため、非常に困難である。
本稿では,新しい量子化に基づく位相誘導型モーションマッチングフレームワークを提案する。
本手法は,音声によるジェスチャー生成における近年の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:31:25Z) - Audio-Driven Co-Speech Gesture Video Generation [92.15661971086746]
音声駆動型音声合成におけるこの課題を定義し,検討する。
私たちの重要な洞察は、共同音声ジェスチャーは共通の動きパターンと微妙なリズムダイナミクスに分解できるということです。
本稿では,再利用可能な音声のジェスチャーパターンを効果的に捉えるための新しいフレームワークであるAudio-driveN Gesture vIdeo gEneration(ANGIE)を提案する。
論文 参考訳(メタデータ) (2022-12-05T15:28:22Z) - GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain
Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。
GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。
ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-05-15T08:16:02Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。