論文の概要: QPGesture: Quantization-Based and Phase-Guided Motion Matching for
Natural Speech-Driven Gesture Generation
- arxiv url: http://arxiv.org/abs/2305.11094v1
- Date: Thu, 18 May 2023 16:31:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 14:09:19.304744
- Title: QPGesture: Quantization-Based and Phase-Guided Motion Matching for
Natural Speech-Driven Gesture Generation
- Title(参考訳): QPGesture:自然音声によるジェスチャー生成のための量子化と位相誘導動作マッチング
- Authors: Sicheng Yang, Zhiyong Wu, Minglei Li, Zhensong Zhang, Lei Hao, Weihong
Bao, Haolin Zhuang
- Abstract要約: 音声によるジェスチャー生成は、人間の動きのランダムなジッタのため、非常に困難である。
本稿では,新しい量子化に基づく位相誘導型モーションマッチングフレームワークを提案する。
本手法は,音声によるジェスチャー生成における近年の手法よりも優れている。
- 参考スコア(独自算出の注目度): 8.604430209445695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-driven gesture generation is highly challenging due to the random
jitters of human motion. In addition, there is an inherent asynchronous
relationship between human speech and gestures. To tackle these challenges, we
introduce a novel quantization-based and phase-guided motion-matching
framework. Specifically, we first present a gesture VQ-VAE module to learn a
codebook to summarize meaningful gesture units. With each code representing a
unique gesture, random jittering problems are alleviated effectively. We then
use Levenshtein distance to align diverse gestures with different speech.
Levenshtein distance based on audio quantization as a similarity metric of
corresponding speech of gestures helps match more appropriate gestures with
speech, and solves the alignment problem of speech and gestures well. Moreover,
we introduce phase to guide the optimal gesture matching based on the semantics
of context or rhythm of audio. Phase guides when text-based or speech-based
gestures should be performed to make the generated gestures more natural.
Extensive experiments show that our method outperforms recent approaches on
speech-driven gesture generation. Our code, database, pre-trained models, and
demos are available at https://github.com/YoungSeng/QPGesture.
- Abstract(参考訳): 人間の動きのランダムなジッタのため、音声によるジェスチャー生成は非常に困難である。
さらに、人間の発話とジェスチャーには本質的に非同期な関係がある。
これらの課題に取り組むため,我々は,新しい量子化ベースと位相誘導型モーションマッチングフレームワークを提案する。
具体的には、まず、意味のあるジェスチャーユニットを要約するコードブックを学ぶためのジェスチャーVQ-VAEモジュールを提示する。
それぞれのコードがユニークなジェスチャーを表すため、ランダムなジッタリング問題は効果的に緩和される。
次に、Levenshtein距離を使って多様なジェスチャーを異なる音声で一致させる。
ジェスチャーの対応する音声の類似度指標としての音声量子化に基づくレベンシュテイン距離は、より適切なジェスチャーと音声とのマッチングを助け、音声とジェスチャーのアライメント問題をよく解決する。
さらに、音声の文脈やリズムのセマンティクスに基づいて最適なジェスチャーマッチングを誘導するための位相を導入する。
テキストベースまたは音声ベースのジェスチャーを行う場合のフェーズガイドは、生成したジェスチャーをより自然にするためのものである。
大規模な実験により,本手法は音声によるジェスチャー生成における近年の手法よりも優れていた。
私たちのコード、データベース、事前訓練されたモデル、デモはhttps://github.com/youngseng/qpgesture.com/で利用可能です。
関連論文リスト
- ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance [11.207513771079705]
本稿では,テキストと音声情報を同期して表現力のあるフルボディジェスチャーを生成する新しいフレームワークExpGestを紹介する。
AdaINやワンホットの符号化法とは異なり、対向方向雑音を最適化するためのノイズ感情分類器を設計する。
我々は, ExpGestが, 最先端モデルと比較して, 話者の表現力, 自然な, 制御可能なグローバルな動きを実現することを示す。
論文 参考訳(メタデータ) (2024-10-12T07:01:17Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - Freetalker: Controllable Speech and Text-Driven Gesture Generation Based
on Diffusion Models for Enhanced Speaker Naturalness [45.90256126021112]
我々は、自然発生(例えば、共音声ジェスチャー)と非自然発生(例えば、表彰台を動き回る)の両方を生成するための最初のフレームワークであるFreeTalkerを紹介する。
具体的には、音声によるジェスチャーとテキストによる動作の統一表現を用いた話者動作生成のための拡散モデルについて訓練する。
論文 参考訳(メタデータ) (2024-01-07T13:01:29Z) - EMAGE: Towards Unified Holistic Co-Speech Gesture Generation via Expressive Masked Audio Gesture Modeling [57.08286593059137]
音声とマスクによるジェスチャーから全身の人間のジェスチャーを生成するためのフレームワークEMAGEを提案する。
まずBEAT2(BEAT-SMPLX-FLAME)というメッシュレベルの音声合成データセットを紹介した。
実験により、EMAGEは最先端のパフォーマンスで総合的なジェスチャーを生成することが示された。
論文 参考訳(メタデータ) (2023-12-31T02:25:41Z) - LivelySpeaker: Towards Semantic-Aware Co-Speech Gesture Generation [41.42316077949012]
セマンティクスを意識した音声ジェスチャー生成を実現するフレームワークであるLivelySpeakerを紹介する。
本手法では,タスクをスクリプトベースのジェスチャー生成とオーディオガイドによるリズム改善の2段階に分割する。
新たな2段階生成フレームワークでは,妊娠スタイルの変更など,いくつかの応用が可能となった。
論文 参考訳(メタデータ) (2023-09-17T15:06:11Z) - Audio-Driven Co-Speech Gesture Video Generation [92.15661971086746]
音声駆動型音声合成におけるこの課題を定義し,検討する。
私たちの重要な洞察は、共同音声ジェスチャーは共通の動きパターンと微妙なリズムダイナミクスに分解できるということです。
本稿では,再利用可能な音声のジェスチャーパターンを効果的に捉えるための新しいフレームワークであるAudio-driveN Gesture vIdeo gEneration(ANGIE)を提案する。
論文 参考訳(メタデータ) (2022-12-05T15:28:22Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z) - Freeform Body Motion Generation from Speech [53.50388964591343]
音声から体の動きを生成することは、音声から体の動きへの非決定論的マッピングのために本質的に困難である。
2ストリームアーキテクチャを組み込んだ新しいフリーフォームモーション生成モデル(FreeMo)を提案する。
実験は、いくつかのベースラインに対して優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-04T13:03:22Z) - Speech Drives Templates: Co-Speech Gesture Synthesis with Learned
Templates [30.32106465591015]
共同音声ジェスチャ生成は、実際のように見えるだけでなく、入力された音声音声と一致するジェスチャーシーケンスを合成することである。
本手法は腕,手,頭部を含む完全な上半身の動きを生成する。
論文 参考訳(メタデータ) (2021-08-18T07:53:36Z) - Gesticulator: A framework for semantically-aware speech-driven gesture
generation [17.284154896176553]
任意のビートとセマンティックなジェスチャーを同時に生成するモデルを提案する。
深層学習に基づくモデルでは、音声の音響的表現と意味的表現の両方を入力とし、入力として関節角回転の列としてジェスチャーを生成する。
結果として得られるジェスチャーは、仮想エージェントとヒューマノイドロボットの両方に適用できる。
論文 参考訳(メタデータ) (2020-01-25T14:42:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。