論文の概要: Multimodal analysis of the predictability of hand-gesture properties
- arxiv url: http://arxiv.org/abs/2108.05762v1
- Date: Thu, 12 Aug 2021 14:16:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-13 14:20:50.703734
- Title: Multimodal analysis of the predictability of hand-gesture properties
- Title(参考訳): 手振り特性の予測可能性に関するマルチモーダル解析
- Authors: Taras Kucherenko, Rajmund Nagy, Michael Neff, Hedvig Kjellstr\"om,
Gustav Eje Henter
- Abstract要約: 身近な会話エージェントは、ジェスチャーで彼らのスピーチに同行できることの恩恵を受ける。
本稿では,現代ディープラーニングを用いた音声テキストおよび/または音声から,どのジェスチャー特性を予測できるかを検討する。
- 参考スコア(独自算出の注目度): 10.332200713176768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied conversational agents benefit from being able to accompany their
speech with gestures. Although many data-driven approaches to gesture
generation have been proposed in recent years, it is still unclear whether such
systems can consistently generate gestures that convey meaning. We investigate
which gesture properties (phase, category, and semantics) can be predicted from
speech text and/or audio using contemporary deep learning. In extensive
experiments, we show that gesture properties related to gesture meaning
(semantics and category) are predictable from text features (time-aligned BERT
embeddings) alone, but not from prosodic audio features, while rhythm-related
gesture properties (phase) on the other hand can be predicted from either
audio, text (with word-level timing information), or both. These results are
encouraging as they indicate that it is possible to equip an embodied agent
with content-wise meaningful co-speech gestures using a machine-learning model.
- Abstract(参考訳): 身近な会話エージェントは、ジェスチャーで彼らのスピーチに同行できることの恩恵を受ける。
近年, ジェスチャ生成へのデータ駆動型アプローチが数多く提案されているが, 意味を伝達するジェスチャを連続的に生成できるかどうかは不明である。
現代ディープラーニングを用いて,音声テキストや音声からジェスチャ特性(フェーズ,カテゴリ,セマンティクス)を予測できるかを検討する。
広範にわたる実験において,ジェスチャの意味(意味やカテゴリー)に関連するジェスチャ特性は,テキストの特徴(タイムアライメントされたbert埋め込み)だけでは予測できるが,韻律的音声特徴からではなく,一方,リズム関連ジェスチャ特性(フェーズ)は音声,テキスト(単語レベルのタイミング情報を含む),あるいはその両方から予測できることを示した。
これらの結果は,機械学習モデルを用いて,具体的エージェントに内容的に意味のある共同音声ジェスチャーを付与できることを示唆するものである。
関連論文リスト
- Integrating Representational Gestures into Automatically Generated Embodied Explanations and its Effects on Understanding and Interaction Quality [0.0]
本研究では,異なる種類のジェスチャーが相互作用の質や聴取者の理解にどのように影響するかを検討する。
我々のモデルは、学習した音声駆動モジュールが生成したビートジェスチャーと、手動でキャプチャした象徴的ジェスチャーを組み合わせる。
発見は、象徴的なジェスチャー単独の使用もビートジェスチャーの組み合わせも、理解の観点からはベースラインやビートのみの状態よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-18T12:23:00Z) - Semantic Gesticulator: Semantics-Aware Co-Speech Gesture Synthesis [25.822870767380685]
本稿では,セマンティック・ゲスティキュレータについて述べる。セマンティック・ジェスチャは,セマンティック・ジェスチャを強力なセマンティック・アセプティクスで合成するためのフレームワークである。
本システムでは,リズミカルコヒーレントかつセマンティックな動作を生成する上で,ロバスト性を示す。
我々のシステムは、意味的適切性の観点から、最先端のシステムよりも明確なマージンで優れています。
論文 参考訳(メタデータ) (2024-05-16T05:09:01Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。
提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。
生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文 参考訳(メタデータ) (2023-08-21T17:59:02Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Deep Neural Convolutive Matrix Factorization for Articulatory
Representation Decomposition [48.56414496900755]
この研究は、コンボリューティブスパース行列分解のニューラル実装を用いて、調音データを解釈可能なジェスチャーとジェスチャースコアに分解する。
音素認識実験も実施され、ジェスチャースコアが実際に音韻情報のコード化に成功していることが示された。
論文 参考訳(メタデータ) (2022-04-01T14:25:19Z) - Speech2Properties2Gestures: Gesture-Property Prediction as a Tool for
Generating Representational Gestures from Speech [9.859003149671807]
本研究では,ジェスチャ生成のための新しいフレームワークを提案する。
提案手法はまずジェスチャーを予測し,次にジェスチャー特性の予測を行う。
論文 参考訳(メタデータ) (2021-06-28T14:07:59Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - Speech Gesture Generation from the Trimodal Context of Text, Audio, and
Speaker Identity [21.61168067832304]
本稿では、音声テキスト、音声、話者識別のマルチモーダルコンテキストを用いてジェスチャーを確実に生成する自動ジェスチャー生成モデルを提案する。
提案手法を用いた評価実験により,提案したジェスチャー生成モデルは既存のエンドツーエンド生成モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-09-04T11:42:45Z) - Gesticulator: A framework for semantically-aware speech-driven gesture
generation [17.284154896176553]
任意のビートとセマンティックなジェスチャーを同時に生成するモデルを提案する。
深層学習に基づくモデルでは、音声の音響的表現と意味的表現の両方を入力とし、入力として関節角回転の列としてジェスチャーを生成する。
結果として得られるジェスチャーは、仮想エージェントとヒューマノイドロボットの両方に適用できる。
論文 参考訳(メタデータ) (2020-01-25T14:42:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。