論文の概要: Learning Co-Speech Gesture Representations in Dialogue through Contrastive Learning: An Intrinsic Evaluation
- arxiv url: http://arxiv.org/abs/2409.10535v1
- Date: Sat, 31 Aug 2024 08:53:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-22 21:32:16.728065
- Title: Learning Co-Speech Gesture Representations in Dialogue through Contrastive Learning: An Intrinsic Evaluation
- Title(参考訳): コントラスト学習による対話における共音声ジェスチャ表現の学習--本質的評価
- Authors: Esam Ghaleb, Bulat Khaertdinov, Wim Pouw, Marlou Rasenberg, Judith Holler, Aslı Özyürek, Raquel Fernández,
- Abstract要約: 対面対話では, 文脈的要因によって, 話し言葉の形式的意味の関係が変化する。
ジェスチャーの多様性と音声との関係を考慮した意味あるジェスチャー表現の学習法
本稿では,自己指導型コントラスト学習技術を用いて,骨格情報と音声情報からジェスチャー表現を学習する。
- 参考スコア(独自算出の注目度): 4.216085185442862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In face-to-face dialogues, the form-meaning relationship of co-speech gestures varies depending on contextual factors such as what the gestures refer to and the individual characteristics of speakers. These factors make co-speech gesture representation learning challenging. How can we learn meaningful gestures representations considering gestures' variability and relationship with speech? This paper tackles this challenge by employing self-supervised contrastive learning techniques to learn gesture representations from skeletal and speech information. We propose an approach that includes both unimodal and multimodal pre-training to ground gesture representations in co-occurring speech. For training, we utilize a face-to-face dialogue dataset rich with representational iconic gestures. We conduct thorough intrinsic evaluations of the learned representations through comparison with human-annotated pairwise gesture similarity. Moreover, we perform a diagnostic probing analysis to assess the possibility of recovering interpretable gesture features from the learned representations. Our results show a significant positive correlation with human-annotated gesture similarity and reveal that the similarity between the learned representations is consistent with well-motivated patterns related to the dynamics of dialogue interaction. Moreover, our findings demonstrate that several features concerning the form of gestures can be recovered from the latent representations. Overall, this study shows that multimodal contrastive learning is a promising approach for learning gesture representations, which opens the door to using such representations in larger-scale gesture analysis studies.
- Abstract(参考訳): 対面対話では, 対話の形式的意味合いは, ジェスチャーが何を指しているのか, 話者の個人的特徴など, 文脈的要因によって異なる。
これらの要因により、共同音声ジェスチャー表現学習が困難になる。
ジェスチャーの多様性と音声との関係を考慮した意味あるジェスチャー表現の学習法
本稿では、自己教師付きコントラスト学習技術を用いて、骨格情報と音声情報からジェスチャー表現を学習する。
共起音声における非モーダル・マルチモーダル事前学習とグラウンドジェスチャ表現の両方を含むアプローチを提案する。
トレーニングでは,表現的図形ジェスチャーに富んだ対面対話データセットを利用する。
本研究では,人間のアノテーションを用いたジェスチャー類似度との比較により,学習した表現の包括的内在的評価を行う。
さらに,学習した表現から解釈可能なジェスチャー特徴を復元する可能性を評価するために,診断探索分析を行う。
以上の結果から,人間に注釈付けされたジェスチャーの類似性に有意な正の相関性を示し,学習された表現の類似性は,対話相互作用のダイナミックスに関連するよく動機付けられたパターンと一致していることが明らかとなった。
さらに, ジェスチャーの形式に関するいくつかの特徴が, 潜在表現から復元できることが示唆された。
本研究は,マルチモーダルコントラスト学習がジェスチャー表現の学習に有望なアプローチであることを示す。
関連論文リスト
- Emphasizing Semantic Consistency of Salient Posture for Speech-Driven Gesture Generation [44.78811546051805]
音声駆動ジェスチャ生成は、入力音声信号と同期したジェスチャシーケンスを合成することを目的としている。
従来の手法では、ニューラルネットワークを利用して、コンパクトな音声表現をジェスチャーシーケンスに直接マッピングする。
そこで本稿では,姿勢のセマンティック一貫性を重視した音声によるジェスチャー生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-17T17:22:59Z) - Integrating Representational Gestures into Automatically Generated Embodied Explanations and its Effects on Understanding and Interaction Quality [0.0]
本研究では,異なる種類のジェスチャーが相互作用の質や聴取者の理解にどのように影響するかを検討する。
我々のモデルは、学習した音声駆動モジュールが生成したビートジェスチャーと、手動でキャプチャした象徴的ジェスチャーを組み合わせる。
発見は、象徴的なジェスチャー単独の使用もビートジェスチャーの組み合わせも、理解の観点からはベースラインやビートのみの状態よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-18T12:23:00Z) - Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。
動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。
提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文 参考訳(メタデータ) (2024-06-15T04:50:19Z) - Leveraging Speech for Gesture Detection in Multimodal Communication [3.798147784987455]
ジェスチャーは人間のインタラクションに固有のものであり、対面コミュニケーションにおいてしばしば音声を補完し、マルチモーダル通信システムを形成する。
自動ジェスチャー検出の研究は、主に視覚的および運動学的情報に焦点を当て、低可変性で孤立した、あるいは無音なジェスチャーの限られたセットを検知し、音声や視覚信号の統合を無視して、音声と共起するジェスチャーを検出する。
本研究は,共同音声ジェスチャー検出に焦点をあて,音声と共同音声ジェスチャーの同期を強調することで,このギャップに対処する。
論文 参考訳(メタデータ) (2024-04-23T11:54:05Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - Diversifying Joint Vision-Language Tokenization Learning [51.82353485389527]
画像とテキスト間で共同表現を構築することは、ビジュアル質問回答やビデオ質問回答といったタスクにとって重要なステップである。
トークン化学習プロセスの多様化による共同視覚言語表現学習を提案する。
論文 参考訳(メタデータ) (2023-06-06T05:41:42Z) - deep learning of segment-level feature representation for speech emotion
recognition in conversations [9.432208348863336]
そこで本稿では,意図的文脈依存と話者感応的相互作用をキャプチャする対話型音声感情認識手法を提案する。
まず、事前訓練されたVGGishモデルを用いて、個々の発話におけるセグメントベース音声表現を抽出する。
第2に、注意的双方向リカレントユニット(GRU)は、文脈に敏感な情報をモデル化し、話者内および話者間依存関係を共同で探索する。
論文 参考訳(メタデータ) (2023-02-05T16:15:46Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - Multimodal analysis of the predictability of hand-gesture properties [10.332200713176768]
身近な会話エージェントは、ジェスチャーで彼らのスピーチに同行できることの恩恵を受ける。
本稿では,現代ディープラーニングを用いた音声テキストおよび/または音声から,どのジェスチャー特性を予測できるかを検討する。
論文 参考訳(メタデータ) (2021-08-12T14:16:00Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。