論文の概要: Speech Gesture Generation from the Trimodal Context of Text, Audio, and
Speaker Identity
- arxiv url: http://arxiv.org/abs/2009.02119v1
- Date: Fri, 4 Sep 2020 11:42:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 02:26:55.845270
- Title: Speech Gesture Generation from the Trimodal Context of Text, Audio, and
Speaker Identity
- Title(参考訳): テキスト・音声・話者識別の3次元文脈からの音声ジェスチャ生成
- Authors: Youngwoo Yoon, Bok Cha, Joo-Haeng Lee, Minsu Jang, Jaeyeon Lee,
Jaehong Kim, Geehyuk Lee
- Abstract要約: 本稿では、音声テキスト、音声、話者識別のマルチモーダルコンテキストを用いてジェスチャーを確実に生成する自動ジェスチャー生成モデルを提案する。
提案手法を用いた評価実験により,提案したジェスチャー生成モデルは既存のエンドツーエンド生成モデルよりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 21.61168067832304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For human-like agents, including virtual avatars and social robots, making
proper gestures while speaking is crucial in human--agent interaction.
Co-speech gestures enhance interaction experiences and make the agents look
alive. However, it is difficult to generate human-like gestures due to the lack
of understanding of how people gesture. Data-driven approaches attempt to learn
gesticulation skills from human demonstrations, but the ambiguous and
individual nature of gestures hinders learning. In this paper, we present an
automatic gesture generation model that uses the multimodal context of speech
text, audio, and speaker identity to reliably generate gestures. By
incorporating a multimodal context and an adversarial training scheme, the
proposed model outputs gestures that are human-like and that match with speech
content and rhythm. We also introduce a new quantitative evaluation metric for
gesture generation models. Experiments with the introduced metric and
subjective human evaluation showed that the proposed gesture generation model
is better than existing end-to-end generation models. We further confirm that
our model is able to work with synthesized audio in a scenario where contexts
are constrained, and show that different gesture styles can be generated for
the same speech by specifying different speaker identities in the style
embedding space that is learned from videos of various speakers. All the code
and data is available at
https://github.com/ai4r/Gesture-Generation-from-Trimodal-Context.
- Abstract(参考訳): 仮想アバターや社会ロボットを含む人間のようなエージェントにとって、話しながら適切なジェスチャーをすることは人間とエージェントの相互作用に不可欠である。
共同音声ジェスチャーは相互作用体験を高め、エージェントを生き生きさせる。
しかし,人のジェスチャーの理解が不足しているため,人間的なジェスチャーを生成することは困難である。
データ駆動型アプローチは、人間のデモからジェスチャースキルを学ぶが、ジェスチャーの曖昧さと個性は学習を妨げる。
本稿では、音声テキスト、音声、話者識別のマルチモーダルコンテキストを用いてジェスチャーを確実に生成する自動ジェスチャー生成モデルを提案する。
マルチモーダルな文脈と敵対的学習手法を取り入れることで、提案モデルは、人間らしく、音声の内容やリズムにマッチするジェスチャーを出力する。
また,ジェスチャー生成モデルのための新しい定量的評価指標を提案する。
提案するジェスチャ生成モデルは, 既存のエンド・ツー・エンド生成モデルよりも優れていることが示された。
さらに,コンテクストが制約されるシナリオにおいて,合成音声と協調できることを確認し,各話者の映像から学習したスタイル埋め込み空間において,異なる話者識別性を指定することにより,同一発話に対して異なるジェスチャースタイルを生成できることを示す。
すべてのコードとデータはhttps://github.com/ai4r/Gesture-Generation-from-Trimodal-Contextで入手できる。
関連論文リスト
- ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - Freetalker: Controllable Speech and Text-Driven Gesture Generation Based
on Diffusion Models for Enhanced Speaker Naturalness [45.90256126021112]
我々は、自然発生(例えば、共音声ジェスチャー)と非自然発生(例えば、表彰台を動き回る)の両方を生成するための最初のフレームワークであるFreeTalkerを紹介する。
具体的には、音声によるジェスチャーとテキストによる動作の統一表現を用いた話者動作生成のための拡散モデルについて訓練する。
論文 参考訳(メタデータ) (2024-01-07T13:01:29Z) - Audio is all in one: speech-driven gesture synthetics using WavLM pre-trained model [2.827070255699381]
diffmotion-v2は、WavLM事前学習モデルを用いた音声条件拡散に基づく生成モデルである。
生音声のみを使用して、個人的でスタイリングされたフルボディの音声合成ジェスチャを生成することができる。
論文 参考訳(メタデータ) (2023-08-11T08:03:28Z) - Generating Holistic 3D Human Motion from Speech [97.11392166257791]
同期音声を用いた3次元全体体メッシュの高品質データセットを構築した。
次に,顔,体,手が別々にモデル化される新しい音声合成フレームワークを定義する。
論文 参考訳(メタデータ) (2022-12-08T17:25:19Z) - Audio-Driven Co-Speech Gesture Video Generation [92.15661971086746]
音声駆動型音声合成におけるこの課題を定義し,検討する。
私たちの重要な洞察は、共同音声ジェスチャーは共通の動きパターンと微妙なリズムダイナミクスに分解できるということです。
本稿では,再利用可能な音声のジェスチャーパターンを効果的に捉えるための新しいフレームワークであるAudio-driveN Gesture vIdeo gEneration(ANGIE)を提案する。
論文 参考訳(メタデータ) (2022-12-05T15:28:22Z) - Zero-Shot Style Transfer for Gesture Animation driven by Text and Speech
using Adversarial Disentanglement of Multimodal Style Encoding [3.2116198597240846]
本稿では,韻律的特徴とテキストによって駆動されるジェスチャーを異なる話者のスタイルで合成する,効率的かつ効果的な機械学習手法を提案する。
本モデルは,様々な話者のビデオを含むPATSデータベースからのマルチモーダルデータによって駆動されるゼロショットマルチモーダル方式の転送を行う。
論文 参考訳(メタデータ) (2022-08-03T08:49:55Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z) - Style Transfer for Co-Speech Gesture Animation: A Multi-Speaker
Conditional-Mixture Approach [46.50460811211031]
鍵となる課題は、ターゲット話者「B」のジェスチャースタイルで発話エージェント「A」のジェスチャーを生成するモデルを学習することである。
本研究では,複数の話者に対して1つのモデルを訓練し,各話者のジェスチャーに固有のスタイルの埋め込みを学習するMix-StAGEを提案する。
Mix-StAGEはスタイルとジェスチャーの内容が混在しているため、単にスタイル埋め込みを切り替えることで、同じ入力音声のジェスチャースタイルを変更することができる。
論文 参考訳(メタデータ) (2020-07-24T15:01:02Z) - Gesticulator: A framework for semantically-aware speech-driven gesture
generation [17.284154896176553]
任意のビートとセマンティックなジェスチャーを同時に生成するモデルを提案する。
深層学習に基づくモデルでは、音声の音響的表現と意味的表現の両方を入力とし、入力として関節角回転の列としてジェスチャーを生成する。
結果として得られるジェスチャーは、仮想エージェントとヒューマノイドロボットの両方に適用できる。
論文 参考訳(メタデータ) (2020-01-25T14:42:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。