論文の概要: Speech Drives Templates: Co-Speech Gesture Synthesis with Learned
Templates
- arxiv url: http://arxiv.org/abs/2108.08020v1
- Date: Wed, 18 Aug 2021 07:53:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-19 14:40:09.258752
- Title: Speech Drives Templates: Co-Speech Gesture Synthesis with Learned
Templates
- Title(参考訳): 音声駆動テンプレート:学習テンプレートを用いた協調ジェスチャー合成
- Authors: Shenhan Qian, Zhi Tu, YiHao Zhi, Wen Liu, Shenghua Gao
- Abstract要約: 共同音声ジェスチャ生成は、実際のように見えるだけでなく、入力された音声音声と一致するジェスチャーシーケンスを合成することである。
本手法は腕,手,頭部を含む完全な上半身の動きを生成する。
- 参考スコア(独自算出の注目度): 30.32106465591015
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Co-speech gesture generation is to synthesize a gesture sequence that not
only looks real but also matches with the input speech audio. Our method
generates the movements of a complete upper body, including arms, hands, and
the head. Although recent data-driven methods achieve great success, challenges
still exist, such as limited variety, poor fidelity, and lack of objective
metrics. Motivated by the fact that the speech cannot fully determine the
gesture, we design a method that learns a set of gesture template vectors to
model the latent conditions, which relieve the ambiguity. For our method, the
template vector determines the general appearance of a generated gesture
sequence, while the speech audio drives subtle movements of the body, both
indispensable for synthesizing a realistic gesture sequence. Due to the
intractability of an objective metric for gesture-speech synchronization, we
adopt the lip-sync error as a proxy metric to tune and evaluate the
synchronization ability of our model. Extensive experiments show the
superiority of our method in both objective and subjective evaluations on
fidelity and synchronization.
- Abstract(参考訳): 共同音声ジェスチャ生成は、実際のように見えるだけでなく、入力された音声音声と一致するジェスチャーシーケンスを合成する。
本手法は、腕、手、頭部を含む、完全な上半身の動きを生成する。
最近のデータ駆動手法は大きな成功を収めているが、限られた多様性、不確かさ、客観的な指標の欠如といった課題がまだ残っている。
音声がジェスチャーを完全に決定できないという事実に感銘を受けて,ジェスチャーテンプレートベクトルの集合を学習して潜在条件をモデル化する手法を設計し,あいまいさを和らげる。
提案手法では,音声が身体の微妙な動きを駆動するのに対して,テンプレートベクトルは生成したジェスチャシーケンスの一般的な外観を決定するが,どちらも現実的なジェスチャシーケンスの合成には不可欠である。
ジェスチャ・スパイチ同期のための客観的メトリックの難易度により,モデルの同期能力をチューニングし評価するためのプロキシメトリックとして,リップ同期誤差を採用する。
実験結果から,本手法の主観的,主観的両面において,忠実度と同期性において優位性を示した。
関連論文リスト
- Emphasizing Semantic Consistency of Salient Posture for Speech-Driven Gesture Generation [44.78811546051805]
音声駆動ジェスチャ生成は、入力音声信号と同期したジェスチャシーケンスを合成することを目的としている。
従来の手法では、ニューラルネットワークを利用して、コンパクトな音声表現をジェスチャーシーケンスに直接マッピングする。
そこで本稿では,姿勢のセマンティック一貫性を重視した音声によるジェスチャー生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-17T17:22:59Z) - Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - LivelySpeaker: Towards Semantic-Aware Co-Speech Gesture Generation [41.42316077949012]
セマンティクスを意識した音声ジェスチャー生成を実現するフレームワークであるLivelySpeakerを紹介する。
本手法では,タスクをスクリプトベースのジェスチャー生成とオーディオガイドによるリズム改善の2段階に分割する。
新たな2段階生成フレームワークでは,妊娠スタイルの変更など,いくつかの応用が可能となった。
論文 参考訳(メタデータ) (2023-09-17T15:06:11Z) - QPGesture: Quantization-Based and Phase-Guided Motion Matching for
Natural Speech-Driven Gesture Generation [8.604430209445695]
音声によるジェスチャー生成は、人間の動きのランダムなジッタのため、非常に困難である。
本稿では,新しい量子化に基づく位相誘導型モーションマッチングフレームワークを提案する。
本手法は,音声によるジェスチャー生成における近年の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:31:25Z) - Generating Holistic 3D Human Motion from Speech [97.11392166257791]
同期音声を用いた3次元全体体メッシュの高品質データセットを構築した。
次に,顔,体,手が別々にモデル化される新しい音声合成フレームワークを定義する。
論文 参考訳(メタデータ) (2022-12-08T17:25:19Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z) - Freeform Body Motion Generation from Speech [53.50388964591343]
音声から体の動きを生成することは、音声から体の動きへの非決定論的マッピングのために本質的に困難である。
2ストリームアーキテクチャを組み込んだ新しいフリーフォームモーション生成モデル(FreeMo)を提案する。
実験は、いくつかのベースラインに対して優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-04T13:03:22Z) - Towards Multi-Scale Style Control for Expressive Speech Synthesis [60.08928435252417]
提案手法では,マルチスケール参照エンコーダを用いて,対象音声のグローバルな発話レベルと局所的な準音素レベルの特徴を抽出する。
訓練期間中、マルチスケールスタイルモデルは、エンドツーエンドで音声合成モデルと共同で訓練することができる。
論文 参考訳(メタデータ) (2021-04-08T05:50:09Z) - Sequence-to-Sequence Predictive Model: From Prosody To Communicative
Gestures [2.578242050187029]
本研究では,アテンション機構を備えたリカレントニューラルネットワークに基づくモデルを構築した。
モデルが他のクラスよりも優れたジェスチャークラスを予測できることが分かりました。
また、ある話者のデータに基づいて訓練されたモデルが、同じ会話の他の話者に対しても機能することがわかった。
論文 参考訳(メタデータ) (2020-08-17T21:55:22Z) - Gesticulator: A framework for semantically-aware speech-driven gesture
generation [17.284154896176553]
任意のビートとセマンティックなジェスチャーを同時に生成するモデルを提案する。
深層学習に基づくモデルでは、音声の音響的表現と意味的表現の両方を入力とし、入力として関節角回転の列としてジェスチャーを生成する。
結果として得られるジェスチャーは、仮想エージェントとヒューマノイドロボットの両方に適用できる。
論文 参考訳(メタデータ) (2020-01-25T14:42:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。