論文の概要: ZS-MSTM: Zero-Shot Style Transfer for Gesture Animation driven by Text
and Speech using Adversarial Disentanglement of Multimodal Style Encoding
- arxiv url: http://arxiv.org/abs/2305.12887v1
- Date: Mon, 22 May 2023 10:10:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 16:50:51.858043
- Title: ZS-MSTM: Zero-Shot Style Transfer for Gesture Animation driven by Text
and Speech using Adversarial Disentanglement of Multimodal Style Encoding
- Title(参考訳): ZS-MSTM:マルチモーダルエンコーディングの逆アンタングルを用いたテキストと音声によるジェスチャアニメーションのためのゼロショットスタイルトランスファー
- Authors: Mireille Fares, Catherine Pelachaud, Nicolas Obin
- Abstract要約: 韻律的特徴とテキストによって駆動されるジェスチャーを、異なる話者のスタイルで合成する機械学習手法を提案する。
本モデルでは,PATSデータベースからのマルチモーダルデータを用いたゼロショットマルチモーダル方式の転送を行う。
- 参考スコア(独自算出の注目度): 3.609538870261841
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we address the importance of modeling behavior style in
virtual agents for personalized human-agent interaction. We propose a machine
learning approach to synthesize gestures, driven by prosodic features and text,
in the style of different speakers, even those unseen during training. Our
model incorporates zero-shot multimodal style transfer using multimodal data
from the PATS database, which contains videos of diverse speakers. We recognize
style as a pervasive element during speech, influencing the expressivity of
communicative behaviors, while content is conveyed through multimodal signals
and text. By disentangling content and style, we directly infer the style
embedding, even for speakers not included in the training phase, without the
need for additional training or fine-tuning. Objective and subjective
evaluations are conducted to validate our approach and compare it against two
baseline methods.
- Abstract(参考訳): 本研究では,仮想エージェントにおけるモデリング行動スタイルの重要性について考察する。
本稿では,韻律的特徴とテキストによって駆動されるジェスチャを,異なる話者のスタイルで合成する機械学習手法を提案する。
本モデルでは,多様な話者のビデオを含むPATSデータベースからのマルチモーダルデータを用いて,ゼロショットマルチモーダル方式の転送を行う。
発話中のスタイルを広汎性要素として認識し,コミュニケーション行動の表現性に影響を与え,コンテンツはマルチモーダル信号とテキストで伝達される。
内容とスタイルを分離することで、追加のトレーニングや微調整を必要とせずに、トレーニングフェーズに含まれない話者に対しても、直接スタイル埋め込みを推論します。
目的評価と主観評価を行い,2つの基本手法と比較した。
関連論文リスト
- ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - Audio is all in one: speech-driven gesture synthetics using WavLM pre-trained model [2.827070255699381]
diffmotion-v2は、WavLM事前学習モデルを用いた音声条件拡散に基づく生成モデルである。
生音声のみを使用して、個人的でスタイリングされたフルボディの音声合成ジェスチャを生成することができる。
論文 参考訳(メタデータ) (2023-08-11T08:03:28Z) - TranSTYLer: Multimodal Behavioral Style Transfer for Facial and Body
Gestures Generation [2.7317088388886384]
本稿では,仮想エージェントの行動表現性スタイルを他のエージェントに転送するという課題に対処する。
本稿では,音源話者のマルチモーダルな振る舞いをターゲット話者のスタイルで合成するマルチモーダルトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-08-08T15:42:35Z) - Conversation Style Transfer using Few-Shot Learning [56.43383396058639]
本稿では,会話スタイルの伝達を数ショットの学習問題として紹介する。
そこで本研究では,スタイルフリー対話による課題をピボットとして解くための,コンテキスト内学習手法を提案する。
会話スタイルの転送は下流のタスクにも役立ちます。
論文 参考訳(メタデータ) (2023-02-16T15:27:00Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Zero-Shot Style Transfer for Gesture Animation driven by Text and Speech
using Adversarial Disentanglement of Multimodal Style Encoding [3.2116198597240846]
本稿では,韻律的特徴とテキストによって駆動されるジェスチャーを異なる話者のスタイルで合成する,効率的かつ効果的な機械学習手法を提案する。
本モデルは,様々な話者のビデオを含むPATSデータベースからのマルチモーダルデータによって駆動されるゼロショットマルチモーダル方式の転送を行う。
論文 参考訳(メタデータ) (2022-08-03T08:49:55Z) - Text-driven Emotional Style Control and Cross-speaker Style Transfer in
Neural TTS [7.384726530165295]
合成音声のスタイル制御は、しばしば個別の感情カテゴリーに制限される。
マルチスピーカTTSにおける感情的スタイル制御とクロススピーカースタイル転送のためのテキストベースインタフェースを提案する。
論文 参考訳(メタデータ) (2022-07-13T07:05:44Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Towards Multi-Scale Style Control for Expressive Speech Synthesis [60.08928435252417]
提案手法では,マルチスケール参照エンコーダを用いて,対象音声のグローバルな発話レベルと局所的な準音素レベルの特徴を抽出する。
訓練期間中、マルチスケールスタイルモデルは、エンドツーエンドで音声合成モデルと共同で訓練することができる。
論文 参考訳(メタデータ) (2021-04-08T05:50:09Z) - Style Transfer for Co-Speech Gesture Animation: A Multi-Speaker
Conditional-Mixture Approach [46.50460811211031]
鍵となる課題は、ターゲット話者「B」のジェスチャースタイルで発話エージェント「A」のジェスチャーを生成するモデルを学習することである。
本研究では,複数の話者に対して1つのモデルを訓練し,各話者のジェスチャーに固有のスタイルの埋め込みを学習するMix-StAGEを提案する。
Mix-StAGEはスタイルとジェスチャーの内容が混在しているため、単にスタイル埋め込みを切り替えることで、同じ入力音声のジェスチャースタイルを変更することができる。
論文 参考訳(メタデータ) (2020-07-24T15:01:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。