論文の概要: Style Transfer for Co-Speech Gesture Animation: A Multi-Speaker
Conditional-Mixture Approach
- arxiv url: http://arxiv.org/abs/2007.12553v1
- Date: Fri, 24 Jul 2020 15:01:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 07:07:20.363782
- Title: Style Transfer for Co-Speech Gesture Animation: A Multi-Speaker
Conditional-Mixture Approach
- Title(参考訳): 複数話者条件ミクチャーアプローチによる共音声ジェスチャーアニメーションのスタイル転送
- Authors: Chaitanya Ahuja, Dong Won Lee, Yukiko I. Nakano, Louis-Philippe
Morency
- Abstract要約: 鍵となる課題は、ターゲット話者「B」のジェスチャースタイルで発話エージェント「A」のジェスチャーを生成するモデルを学習することである。
本研究では,複数の話者に対して1つのモデルを訓練し,各話者のジェスチャーに固有のスタイルの埋め込みを学習するMix-StAGEを提案する。
Mix-StAGEはスタイルとジェスチャーの内容が混在しているため、単にスタイル埋め込みを切り替えることで、同じ入力音声のジェスチャースタイルを変更することができる。
- 参考スコア(独自算出の注目度): 46.50460811211031
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: How can we teach robots or virtual assistants to gesture naturally? Can we go
further and adapt the gesturing style to follow a specific speaker? Gestures
that are naturally timed with corresponding speech during human communication
are called co-speech gestures. A key challenge, called gesture style transfer,
is to learn a model that generates these gestures for a speaking agent 'A' in
the gesturing style of a target speaker 'B'. A secondary goal is to
simultaneously learn to generate co-speech gestures for multiple speakers while
remembering what is unique about each speaker. We call this challenge style
preservation. In this paper, we propose a new model, named Mix-StAGE, which
trains a single model for multiple speakers while learning unique style
embeddings for each speaker's gestures in an end-to-end manner. A novelty of
Mix-StAGE is to learn a mixture of generative models which allows for
conditioning on the unique gesture style of each speaker. As Mix-StAGE
disentangles style and content of gestures, gesturing styles for the same input
speech can be altered by simply switching the style embeddings. Mix-StAGE also
allows for style preservation when learning simultaneously from multiple
speakers. We also introduce a new dataset, Pose-Audio-Transcript-Style (PATS),
designed to study gesture generation and style transfer. Our proposed Mix-StAGE
model significantly outperforms the previous state-of-the-art approach for
gesture generation and provides a path towards performing gesture style
transfer across multiple speakers. Link to code, data, and videos:
http://chahuja.com/mix-stage
- Abstract(参考訳): ロボットやバーチャルアシスタントに自然にジェスチャーを教えるには?
もっと進んで、特定の話者に従うようにジェスチャースタイルを適用できますか?
人間のコミュニケーション中に対応する音声と自然に同期するジェスチャは、協調ジェスチャ(co-speech gestures)と呼ばれる。
ジェスチャースタイル転送と呼ばれる重要な課題は、ターゲット話者「B」のジェスチャースタイルにおいて、発話エージェント「A」に対してこれらのジェスチャーを生成するモデルを学習することである。
第二のゴールは、複数の話者に対して、各話者に固有のことを覚えながら、同時に、複数の話者のための音声ジェスチャーを生成することである。
私たちはこの挑戦スタイルを保存と呼ぶ。
本稿では,複数の話者に対して1つのモデルを訓練し,各話者のジェスチャーに固有のスタイルの埋め込みをエンドツーエンドに学習するMix-StAGEというモデルを提案する。
Mix-StAGEの新たな特徴は、各話者のユニークなジェスチャースタイルを条件付けることができる生成モデルの混合を学ぶことである。
Mix-StAGEはスタイルとジェスチャーの内容が混在しているため、単にスタイル埋め込みを切り替えることで、同じ入力音声のジェスチャースタイルを変更することができる。
Mix-StAGEはまた、複数の話者から同時に学習する際のスタイル保存を可能にする。
また、ジェスチャー生成とスタイル転送を研究するために、新しいデータセットPose-Audio-Transcript-Style (PATS)を導入する。
提案したMix-StAGEモデルは,従来のジェスチャー生成手法よりも優れ,複数の話者間でジェスチャースタイルの転送を行うための経路を提供する。
コード、データ、ビデオへのリンク: http://chahuja.com/mix-stage
関連論文リスト
- ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - Freetalker: Controllable Speech and Text-Driven Gesture Generation Based
on Diffusion Models for Enhanced Speaker Naturalness [45.90256126021112]
我々は、自然発生(例えば、共音声ジェスチャー)と非自然発生(例えば、表彰台を動き回る)の両方を生成するための最初のフレームワークであるFreeTalkerを紹介する。
具体的には、音声によるジェスチャーとテキストによる動作の統一表現を用いた話者動作生成のための拡散モデルについて訓練する。
論文 参考訳(メタデータ) (2024-01-07T13:01:29Z) - EMAGE: Towards Unified Holistic Co-Speech Gesture Generation via Expressive Masked Audio Gesture Modeling [57.08286593059137]
音声とマスクによるジェスチャーから全身の人間のジェスチャーを生成するためのフレームワークEMAGEを提案する。
まずBEAT2(BEAT-SMPLX-FLAME)というメッシュレベルの音声合成データセットを紹介した。
実験により、EMAGEは最先端のパフォーマンスで総合的なジェスチャーを生成することが示された。
論文 参考訳(メタデータ) (2023-12-31T02:25:41Z) - Audio is all in one: speech-driven gesture synthetics using WavLM pre-trained model [2.827070255699381]
diffmotion-v2は、WavLM事前学習モデルを用いた音声条件拡散に基づく生成モデルである。
生音声のみを使用して、個人的でスタイリングされたフルボディの音声合成ジェスチャを生成することができる。
論文 参考訳(メタデータ) (2023-08-11T08:03:28Z) - ZS-MSTM: Zero-Shot Style Transfer for Gesture Animation driven by Text
and Speech using Adversarial Disentanglement of Multimodal Style Encoding [3.609538870261841]
韻律的特徴とテキストによって駆動されるジェスチャーを、異なる話者のスタイルで合成する機械学習手法を提案する。
本モデルでは,PATSデータベースからのマルチモーダルデータを用いたゼロショットマルチモーダル方式の転送を行う。
論文 参考訳(メタデータ) (2023-05-22T10:10:35Z) - Zero-Shot Style Transfer for Gesture Animation driven by Text and Speech
using Adversarial Disentanglement of Multimodal Style Encoding [3.2116198597240846]
本稿では,韻律的特徴とテキストによって駆動されるジェスチャーを異なる話者のスタイルで合成する,効率的かつ効果的な機械学習手法を提案する。
本モデルは,様々な話者のビデオを含むPATSデータベースからのマルチモーダルデータによって駆動されるゼロショットマルチモーダル方式の転送を行う。
論文 参考訳(メタデータ) (2022-08-03T08:49:55Z) - GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain
Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。
GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。
ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-05-15T08:16:02Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z) - Speech Gesture Generation from the Trimodal Context of Text, Audio, and
Speaker Identity [21.61168067832304]
本稿では、音声テキスト、音声、話者識別のマルチモーダルコンテキストを用いてジェスチャーを確実に生成する自動ジェスチャー生成モデルを提案する。
提案手法を用いた評価実験により,提案したジェスチャー生成モデルは既存のエンドツーエンド生成モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-09-04T11:42:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。