論文の概要: Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation
- arxiv url: http://arxiv.org/abs/2203.13161v1
- Date: Thu, 24 Mar 2022 16:33:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 14:29:34.237360
- Title: Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation
- Title(参考訳): 音声合成のための階層的クロスモーダルアソシエーションの学習
- Authors: Xian Liu, Qianyi Wu, Hang Zhou, Yinghao Xu, Rui Qian, Xinyi Lin,
Xiaowei Zhou, Wayne Wu, Bo Dai, Bolei Zhou
- Abstract要約: 協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
- 参考スコア(独自算出の注目度): 107.10239561664496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating speech-consistent body and gesture movements is a long-standing
problem in virtual avatar creation. Previous studies often synthesize pose
movement in a holistic manner, where poses of all joints are generated
simultaneously. Such a straightforward pipeline fails to generate fine-grained
co-speech gestures. One observation is that the hierarchical semantics in
speech and the hierarchical structures of human gestures can be naturally
described into multiple granularities and associated together. To fully utilize
the rich connections between speech audio and human gestures, we propose a
novel framework named Hierarchical Audio-to-Gesture (HA2G) for co-speech
gesture generation. In HA2G, a Hierarchical Audio Learner extracts audio
representations across semantic granularities. A Hierarchical Pose Inferer
subsequently renders the entire human pose gradually in a hierarchical manner.
To enhance the quality of synthesized gestures, we develop a contrastive
learning strategy based on audio-text alignment for better audio
representations. Extensive experiments and human evaluation demonstrate that
the proposed method renders realistic co-speech gestures and outperforms
previous methods in a clear margin. Project page:
https://alvinliu0.github.io/projects/HA2G
- Abstract(参考訳): 音声一貫性のある身体とジェスチャーの動きの生成は、仮想アバター作成における長年の問題である。
以前の研究はしばしば、すべての関節のポーズを同時に生成する全体的な方法でポーズを合成する。
このような単純なパイプラインは、きめ細かい音声のジェスチャーを生成できない。
1つの観察は、音声における階層的意味論と人間のジェスチャーの階層的構造は、自然に複数の粒度に記述され、関連付けられることである。
音声音声と人間のジェスチャーのリッチな接続をフル活用するために,音声合成のための階層型ジェスチャー生成(HA2G)という新しいフレームワークを提案する。
HA2Gでは、階層型オーディオ学習者が意味的な粒度を越えて音声表現を抽出する。
階層的なポース推論はその後、階層的な方法で人間全体のポーズを徐々にレンダリングする。
合成ジェスチャの品質を向上させるため,音声テキストアライメントに基づくコントラスト学習戦略を開発し,より優れた音声表現を実現する。
広範にわたる実験と人的評価により,提案手法が現実的に協調ジェスチャを表現し,従来の手法を明確なマージンで上回ることを示した。
プロジェクトページ: https://alvinliu0.github.io/projects/ha2g
関連論文リスト
- EMO2: End-Effector Guided Audio-Driven Avatar Video Generation [17.816939983301474]
本稿では,表現力の高い表情と手の動きを同時に生成できる新しい音声駆動音声ヘッド手法を提案する。
第1段階では、音声信号と手の動きの強い相関を利用して、音声入力から直接手振りを生成する。
第2段階では、拡散モデルを用いてビデオフレームを合成し、第1段階で生成されたポーズを取り入れ、現実的な表情と身体の動きを生成する。
論文 参考訳(メタデータ) (2025-01-18T07:51:29Z) - CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。
具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。
我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文 参考訳(メタデータ) (2024-12-13T12:59:39Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - EMAGE: Towards Unified Holistic Co-Speech Gesture Generation via Expressive Masked Audio Gesture Modeling [57.08286593059137]
音声とマスクによるジェスチャーから全身の人間のジェスチャーを生成するためのフレームワークEMAGEを提案する。
まずBEAT2(BEAT-SMPLX-FLAME)というメッシュレベルの音声合成データセットを紹介した。
実験により、EMAGEは最先端のパフォーマンスで総合的なジェスチャーを生成することが示された。
論文 参考訳(メタデータ) (2023-12-31T02:25:41Z) - LivelySpeaker: Towards Semantic-Aware Co-Speech Gesture Generation [41.42316077949012]
セマンティクスを意識した音声ジェスチャー生成を実現するフレームワークであるLivelySpeakerを紹介する。
本手法では,タスクをスクリプトベースのジェスチャー生成とオーディオガイドによるリズム改善の2段階に分割する。
新たな2段階生成フレームワークでは,妊娠スタイルの変更など,いくつかの応用が可能となった。
論文 参考訳(メタデータ) (2023-09-17T15:06:11Z) - Audio is all in one: speech-driven gesture synthetics using WavLM pre-trained model [2.827070255699381]
diffmotion-v2は、WavLM事前学習モデルを用いた音声条件拡散に基づく生成モデルである。
生音声のみを使用して、個人的でスタイリングされたフルボディの音声合成ジェスチャを生成することができる。
論文 参考訳(メタデータ) (2023-08-11T08:03:28Z) - Audio-Driven Co-Speech Gesture Video Generation [92.15661971086746]
音声駆動型音声合成におけるこの課題を定義し,検討する。
私たちの重要な洞察は、共同音声ジェスチャーは共通の動きパターンと微妙なリズムダイナミクスに分解できるということです。
本稿では,再利用可能な音声のジェスチャーパターンを効果的に捉えるための新しいフレームワークであるAudio-driveN Gesture vIdeo gEneration(ANGIE)を提案する。
論文 参考訳(メタデータ) (2022-12-05T15:28:22Z) - Multi-view Temporal Alignment for Non-parallel Articulatory-to-Acoustic
Speech Synthesis [59.623780036359655]
A2A(Articulatory-to-Aoustic)合成は、音声刺激器のキャプチャされた動きから可聴音声の生成を指します。
この手法には、病気や怪我のためにもはや話せない人々への口頭コミュニケーションの回復など、多くの応用がある。
本稿では,多視点学習の理論に基づく問題解決法を提案する。
論文 参考訳(メタデータ) (2020-12-30T15:09:02Z) - Gesticulator: A framework for semantically-aware speech-driven gesture
generation [17.284154896176553]
任意のビートとセマンティックなジェスチャーを同時に生成するモデルを提案する。
深層学習に基づくモデルでは、音声の音響的表現と意味的表現の両方を入力とし、入力として関節角回転の列としてジェスチャーを生成する。
結果として得られるジェスチャーは、仮想エージェントとヒューマノイドロボットの両方に適用できる。
論文 参考訳(メタデータ) (2020-01-25T14:42:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。