論文の概要: Sequence-to-Sequence Predictive Model: From Prosody To Communicative
Gestures
- arxiv url: http://arxiv.org/abs/2008.07643v2
- Date: Fri, 23 Apr 2021 21:03:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 03:15:34.519140
- Title: Sequence-to-Sequence Predictive Model: From Prosody To Communicative
Gestures
- Title(参考訳): シーケンス・ツー・シーケンス予測モデル:プロソディからコミュニケーション・ジェスチャへ
- Authors: Fajrian Yunus, Chlo\'e Clavel, Catherine Pelachaud
- Abstract要約: 本研究では,アテンション機構を備えたリカレントニューラルネットワークに基づくモデルを構築した。
モデルが他のクラスよりも優れたジェスチャークラスを予測できることが分かりました。
また、ある話者のデータに基づいて訓練されたモデルが、同じ会話の他の話者に対しても機能することがわかった。
- 参考スコア(独自算出の注目度): 2.578242050187029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Communicative gestures and speech acoustic are tightly linked. Our objective
is to predict the timing of gestures according to the acoustic. That is, we
want to predict when a certain gesture occurs. We develop a model based on a
recurrent neural network with attention mechanism. The model is trained on a
corpus of natural dyadic interaction where the speech acoustic and the gesture
phases and types have been annotated. The input of the model is a sequence of
speech acoustic and the output is a sequence of gesture classes. The classes we
are using for the model output is based on a combination of gesture phases and
gesture types. We use a sequence comparison technique to evaluate the model
performance. We find that the model can predict better certain gesture classes
than others. We also perform ablation studies which reveal that fundamental
frequency is a relevant feature for gesture prediction task. In another
sub-experiment, we find that including eyebrow movements as acting as beat
gesture improves the performance. Besides, we also find that a model trained on
the data of one given speaker also works for the other speaker of the same
conversation. We also perform a subjective experiment to measure how
respondents judge the naturalness, the time consistency, and the semantic
consistency of the generated gesture timing of a virtual agent. Our respondents
rate the output of our model favorably.
- Abstract(参考訳): コミュニケーションのジェスチャーと音声は強く結びついている。
本研究の目的は,ジェスチャーのタイミングを音響的に予測することである。
つまり、あるジェスチャーがいつ発生するかを予測したいのです。
注意機構を持つリカレントニューラルネットワークに基づくモデルを開発した。
モデルは、音声音響とジェスチャーの位相とタイプが注釈付けされた自然なディヤド相互作用のコーパスに基づいて訓練される。
モデルの入力は音声音響のシーケンスであり、出力はジェスチャークラスのシーケンスである。
モデル出力に使用しているクラスは、ジェスチャフェーズとジェスチャタイプの組み合わせに基づいています。
モデル性能を評価するためにシーケンス比較手法を用いる。
モデルが他のクラスよりも優れたジェスチャークラスを予測できることがわかった。
また,基本周波数がジェスチャ予測タスクの関連特徴であることを示すアブレーション研究を行う。
別の実験では、アイブロウの動きをビートジェスチャーのように振る舞うことでパフォーマンスが向上することがわかった。
さらに、ある話者のデータに基づいて訓練されたモデルも、同じ会話の他の話者に対しても機能することがわかった。
また,仮想エージェントが生成したジェスチャタイミングの自然性,時間的一貫性,意味的一貫性をどのように判断するかを主観的に評価する実験を行った。
回答者は私たちのモデルのアウトプットを好意的に評価します。
関連論文リスト
- Counterfactual Generation from Language Models [64.55296662926919]
対実的推論が介入と概念的に異なることを示す。
そこで本研究では,真の文字列反事実を生成するためのフレームワークを提案する。
我々の実験は、このアプローチが有意義な反事実を生み出すことを示した。
論文 参考訳(メタデータ) (2024-11-11T17:57:30Z) - Iconic Gesture Semantics [87.00251241246136]
ジェスチャーの視覚的象徴的モデルの知覚的分類において、情報評価は拡張的な例示(例示)として表される。
視覚コミュニケーションのインスタンスの知覚的分類は、Frege/Montagueフレームワークとは異なる意味の概念を必要とする。
モデル理論評価から動的セマンティックフレームワークにおける推論的解釈まで,ジェスチャ表現の全範囲をカバーするアイコン的ジェスチャセマンティクスが導入された。
論文 参考訳(メタデータ) (2024-04-29T13:58:03Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - Listen, Denoise, Action! Audio-Driven Motion Synthesis with Diffusion
Models [22.000197530493445]
拡散モデルは、音声と共起する人間の動きを合成するのに適していることを示す。
我々はDiffWaveアーキテクチャを3Dポーズシーケンスのモデル化に適用し、コンフォーマーを拡張畳み込みに代えてモデリング能力を向上させる。
ジェスチャーとダンス生成の実験により,提案手法が最上位の動作品質を実現することを確認した。
論文 参考訳(メタデータ) (2022-11-17T17:41:00Z) - Speech Drives Templates: Co-Speech Gesture Synthesis with Learned
Templates [30.32106465591015]
共同音声ジェスチャ生成は、実際のように見えるだけでなく、入力された音声音声と一致するジェスチャーシーケンスを合成することである。
本手法は腕,手,頭部を含む完全な上半身の動きを生成する。
論文 参考訳(メタデータ) (2021-08-18T07:53:36Z) - Facetron: Multi-speaker Face-to-Speech Model based on Cross-modal Latent
Representations [22.14238843571225]
個人の顔の映像を条件付けして、話者固有の音声波形を合成する効果的な方法を提案する。
唇読解モデルを用いて唇の動きから言語的特徴を抽出し,顔画像から話者特性を予測する。
本稿では,従来の手法よりも客観評価と主観評価の両面において,提案手法の優位性を示す。
論文 参考訳(メタデータ) (2021-07-26T07:36:02Z) - Multi-level Motion Attention for Human Motion Prediction [132.29963836262394]
本研究は, 関節, 身体部分, フルポーズレベルなど, 異なる種類の注意力の使用について検討した。
我々は,Human3.6M,AMASS,3DPWを用いて,周期的および非周期的両方の行動に対するアプローチの利点を検証した。
論文 参考訳(メタデータ) (2021-06-17T08:08:11Z) - Ctrl-P: Temporal Control of Prosodic Variation for Speech Synthesis [68.76620947298595]
テキストは音声形式を完全には規定しないので、テキストから音声へのモデルは、対応するテキストで説明されない方法で異なる音声データから学習できなければならない。
韻律の3つの一次音響相関に明示的に条件付けされた音声を生成するモデルを提案する。
論文 参考訳(メタデータ) (2021-06-15T18:03:48Z) - Speech Gesture Generation from the Trimodal Context of Text, Audio, and
Speaker Identity [21.61168067832304]
本稿では、音声テキスト、音声、話者識別のマルチモーダルコンテキストを用いてジェスチャーを確実に生成する自動ジェスチャー生成モデルを提案する。
提案手法を用いた評価実験により,提案したジェスチャー生成モデルは既存のエンドツーエンド生成モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-09-04T11:42:45Z) - Incremental Text to Speech for Neural Sequence-to-Sequence Models using
Reinforcement Learning [60.20205278845412]
テキストから音声への現代的なアプローチでは、音声が合成される前に入力文字列全体を処理する必要がある。
このレイテンシは、同時解釈のような時間に敏感なタスクに対するそのようなモデルの適合性を制限します。
エージェントを訓練して意思決定を行うための強化学習に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-07T11:48:05Z) - Gesticulator: A framework for semantically-aware speech-driven gesture
generation [17.284154896176553]
任意のビートとセマンティックなジェスチャーを同時に生成するモデルを提案する。
深層学習に基づくモデルでは、音声の音響的表現と意味的表現の両方を入力とし、入力として関節角回転の列としてジェスチャーを生成する。
結果として得られるジェスチャーは、仮想エージェントとヒューマノイドロボットの両方に適用できる。
論文 参考訳(メタデータ) (2020-01-25T14:42:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。