論文の概要: TranSTYLer: Multimodal Behavioral Style Transfer for Facial and Body
Gestures Generation
- arxiv url: http://arxiv.org/abs/2308.10843v1
- Date: Tue, 8 Aug 2023 15:42:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-27 05:06:38.824019
- Title: TranSTYLer: Multimodal Behavioral Style Transfer for Facial and Body
Gestures Generation
- Title(参考訳): transtyler: 顔と身体のジェスチャー生成のためのマルチモーダルな動作スタイル転送
- Authors: Mireille Fares, Catherine Pelachaud, Nicolas Obin
- Abstract要約: 本稿では,仮想エージェントの行動表現性スタイルを他のエージェントに転送するという課題に対処する。
本稿では,音源話者のマルチモーダルな振る舞いをターゲット話者のスタイルで合成するマルチモーダルトランスフォーマーモデルを提案する。
- 参考スコア(独自算出の注目度): 2.7317088388886384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the challenge of transferring the behavior expressivity
style of a virtual agent to another one while preserving behaviors shape as
they carry communicative meaning. Behavior expressivity style is viewed here as
the qualitative properties of behaviors. We propose TranSTYLer, a multimodal
transformer based model that synthesizes the multimodal behaviors of a source
speaker with the style of a target speaker. We assume that behavior
expressivity style is encoded across various modalities of communication,
including text, speech, body gestures, and facial expressions. The model
employs a style and content disentanglement schema to ensure that the
transferred style does not interfere with the meaning conveyed by the source
behaviors. Our approach eliminates the need for style labels and allows the
generalization to styles that have not been seen during the training phase. We
train our model on the PATS corpus, which we extended to include dialog acts
and 2D facial landmarks. Objective and subjective evaluations show that our
model outperforms state of the art models in style transfer for both seen and
unseen styles during training. To tackle the issues of style and content
leakage that may arise, we propose a methodology to assess the degree to which
behavior and gestures associated with the target style are successfully
transferred, while ensuring the preservation of the ones related to the source
content.
- Abstract(参考訳): 本稿では,仮想エージェントの行動表現スタイルを他のエージェントに移し,コミュニケーション的意味を持つ行動形態を保ちながら,行動表現スタイルを他のエージェントに移すことの課題について述べる。
ここでは行動表現性スタイルを行動の質的特性と見なす。
そこで我々は,TranSTYLerを提案する。TranSTYLerは,ソース話者のマルチモーダル動作をターゲット話者のスタイルで合成するマルチモーダルトランスフォーマーモデルである。
行動表現スタイルは, テキスト, 音声, 身体ジェスチャー, 表情など, 様々なコミュニケーションのモダリティにまたがってコード化されていると仮定する。
このモデルはスタイルとコンテンツの絡み合いスキーマを使用して、転送されたスタイルがソースの振る舞いによって伝達される意味に干渉しないようにします。
提案手法は,スタイルラベルの必要性を排除し,トレーニング期間中に見られなかったスタイルへの一般化を可能にする。
我々はPATSコーパスでモデルをトレーニングし、ダイアログや2D顔のランドマークを含むように拡張した。
客観的および主観的評価は,本モデルがトレーニング中の見知らぬスタイルと見知らぬスタイルの両方において,アートモデルの状態よりも優れていたことを示している。
そこで本稿では,コンテンツのリークや流儀の漏えい問題に対処するために,対象のスタイルに関連する動作やジェスチャーの伝達の程度を評価する手法を提案する。
関連論文リスト
- Dyadic Interaction Modeling for Social Behavior Generation [6.626277726145613]
ダイアディックインタラクションにおける3次元顔の動きを効果的に生成するための枠組みを提案する。
私たちのフレームワークの中心は、事前トレーニングアプローチであるDydic Interaction Modeling(DIM)です。
実験は、リスナー動作の生成において、我々のフレームワークが優れていることを示す。
論文 参考訳(メタデータ) (2024-03-14T03:21:33Z) - ParaGuide: Guided Diffusion Paraphrasers for Plug-and-Play Textual Style
Transfer [57.6482608202409]
テキストスタイル転送は、意味を保ちながらテキストのスタイル特性を変換するタスクである。
任意のスタイルに柔軟に適応できる汎用型転送のための新しい拡散型フレームワークを提案する。
本研究では,人的評価と自動評価の両面から,Enron Email Corpusの手法を検証するとともに,形式性,感情,さらにはオーサシップスタイルの伝達にも優れることを示す。
論文 参考訳(メタデータ) (2023-08-29T17:36:02Z) - ZS-MSTM: Zero-Shot Style Transfer for Gesture Animation driven by Text
and Speech using Adversarial Disentanglement of Multimodal Style Encoding [3.609538870261841]
韻律的特徴とテキストによって駆動されるジェスチャーを、異なる話者のスタイルで合成する機械学習手法を提案する。
本モデルでは,PATSデータベースからのマルチモーダルデータを用いたゼロショットマルチモーダル方式の転送を行う。
論文 参考訳(メタデータ) (2023-05-22T10:10:35Z) - ALADIN-NST: Self-supervised disentangled representation learning of
artistic style through Neural Style Transfer [60.6863849241972]
我々は、画像に描かれた意味的内容から、より強く絡み合った視覚芸術スタイルの表現を学習する。
スタイルと内容の絡み合いに強く対処することで、スタイル固有のメトリクスが大きく向上することを示します。
論文 参考訳(メタデータ) (2023-04-12T10:33:18Z) - StylerDALLE: Language-Guided Style Transfer Using a Vector-Quantized
Tokenizer of a Large-Scale Generative Model [64.26721402514957]
本論文では,自然言語を用いて抽象芸術スタイルを記述するスタイル転送手法であるStylerDALLEを提案する。
具体的には、非自己回帰的なトークンシーケンス変換として、言語誘導型転送タスクを定式化する。
スタイル情報を組み込むために,CLIPに基づく言語指導による強化学習戦略を提案する。
論文 参考訳(メタデータ) (2023-03-16T12:44:44Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - Conversation Style Transfer using Few-Shot Learning [56.43383396058639]
本稿では,会話スタイルの伝達を数ショットの学習問題として紹介する。
そこで本研究では,スタイルフリー対話による課題をピボットとして解くための,コンテキスト内学習手法を提案する。
会話スタイルの転送は下流のタスクにも役立ちます。
論文 参考訳(メタデータ) (2023-02-16T15:27:00Z) - Zero-Shot Style Transfer for Gesture Animation driven by Text and Speech
using Adversarial Disentanglement of Multimodal Style Encoding [3.2116198597240846]
本稿では,韻律的特徴とテキストによって駆動されるジェスチャーを異なる話者のスタイルで合成する,効率的かつ効果的な機械学習手法を提案する。
本モデルは,様々な話者のビデオを含むPATSデータベースからのマルチモーダルデータによって駆動されるゼロショットマルチモーダル方式の転送を行う。
論文 参考訳(メタデータ) (2022-08-03T08:49:55Z) - Text-driven Emotional Style Control and Cross-speaker Style Transfer in
Neural TTS [7.384726530165295]
合成音声のスタイル制御は、しばしば個別の感情カテゴリーに制限される。
マルチスピーカTTSにおける感情的スタイル制御とクロススピーカースタイル転送のためのテキストベースインタフェースを提案する。
論文 参考訳(メタデータ) (2022-07-13T07:05:44Z) - Exploring Contextual Word-level Style Relevance for Unsupervised Style
Transfer [60.07283363509065]
教師なしのスタイル転送は、元のコンテンツを保持しながら入力文のスタイルを変更することを目的としている。
本稿では,各出力語がターゲットスタイルに関連性があることを活かした,新たな注目シーケンス・ツー・シーケンスモデルを提案する。
実験結果から,提案手法は転送精度とコンテンツ保存の両面から,最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2020-05-05T10:24:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。