論文の概要: Analysis of Co-Laughter Gesture Relationship on RGB videos in Dyadic
Conversation Contex
- arxiv url: http://arxiv.org/abs/2205.10266v1
- Date: Fri, 20 May 2022 16:00:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-23 18:40:57.540867
- Title: Analysis of Co-Laughter Gesture Relationship on RGB videos in Dyadic
Conversation Contex
- Title(参考訳): ダイアディック会話におけるRGBビデオにおける共同娘のジェスチャー関係の分析
- Authors: Hugo Bohy, Ahmad Hammoudeh, Antoine Maiorca, St\'ephane Dupont and
Thierry Dutoit
- Abstract要約: 本研究は、ダイアド会話における笑いと身体の動きの関係について研究する。
深層学習に基づくポーズ推定モデルを用いて,映像から身体の動きを抽出した。
調査したNDC-MEデータセットでは,1つの統計的特徴が笑い強度の30%と弱相関していることがわかった。
- 参考スコア(独自算出の注目度): 2.904892426557913
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of virtual agents has enabled human-avatar interactions to
become increasingly rich and varied. Moreover, an expressive virtual agent i.e.
that mimics the natural expression of emotions, enhances social interaction
between a user (human) and an agent (intelligent machine). The set of
non-verbal behaviors of a virtual character is, therefore, an important
component in the context of human-machine interaction. Laughter is not just an
audio signal, but an intrinsic relationship of multimodal non-verbal
communication, in addition to audio, it includes facial expressions and body
movements. Motion analysis often relies on a relevant motion capture dataset,
but the main issue is that the acquisition of such a dataset is expensive and
time-consuming. This work studies the relationship between laughter and body
movements in dyadic conversations. The body movements were extracted from
videos using deep learning based pose estimator model. We found that, in the
explored NDC-ME dataset, a single statistical feature (i.e, the maximum value,
or the maximum of Fourier transform) of a joint movement weakly correlates with
laughter intensity by 30%. However, we did not find a direct correlation
between audio features and body movements. We discuss about the challenges to
use such dataset for the audio-driven co-laughter motion synthesis task.
- Abstract(参考訳): 仮想エージェントの開発により、人間とアバターの相互作用はますます豊かで多様なものになる。
また、感情の自然な表現を模倣した表現力のある仮想エージェントは、ユーザ(人間)とエージェント(知的機械)との社会的相互作用を高める。
仮想キャラクタの非言語行動の集合は、人間と機械の相互作用の文脈において重要な要素である。
笑いは単なる音声信号ではなく、マルチモーダルな非言語コミュニケーションの本質的な関係であり、音声に加えて、表情や身体の動きも含んでいる。
モーション分析は、しばしば関連するモーションキャプチャデータセットに依存するが、主な問題は、そのようなデータセットの取得が高価で時間を要することである。
本研究は、ディヤド会話における笑いと身体運動の関係について研究する。
体の動きは深層学習に基づくポーズ推定モデルを用いてビデオから抽出した。
調査したNDC-MEデータセットでは,関節運動の1つの統計的特徴(最大値,最大フーリエ変換)が笑い強度の30%と弱相関していることがわかった。
しかし,音声特徴と身体運動との直接的な相関は認められなかった。
本稿では,このようなデータセットを音声による共同笑い動作合成タスクに利用する際の課題について論じる。
関連論文リスト
- Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - Dyadic Interaction Modeling for Social Behavior Generation [6.626277726145613]
ダイアディックインタラクションにおける3次元顔の動きを効果的に生成するための枠組みを提案する。
私たちのフレームワークの中心は、事前トレーニングアプローチであるDydic Interaction Modeling(DIM)です。
実験は、リスナー動作の生成において、我々のフレームワークが優れていることを示す。
論文 参考訳(メタデータ) (2024-03-14T03:21:33Z) - Scaling Up Dynamic Human-Scene Interaction Modeling [58.032368564071895]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。
人体全体の動きや部分レベルの物体の動きを複雑に捉えます。
本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2024-03-13T15:45:04Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - Synthesizing Physical Character-Scene Interactions [64.26035523518846]
仮想キャラクタとその周辺環境間のこのような相互作用を合成する必要がある。
本稿では,逆模倣学習と強化学習を用いて物理シミュレーション文字を学習するシステムを提案する。
我々のアプローチは、物理学に基づくキャラクターモーション生成を広い適用性に一歩近づいた。
論文 参考訳(メタデータ) (2023-02-02T05:21:32Z) - Multimodal Vision Transformers with Forced Attention for Behavior
Analysis [0.0]
本稿では,強制注意(FAt)変換を導入し,入力エンコーディングや追加入力の利用に改良されたバックボーンを付加した。
FAt変換器は、パーソナリティ認識とボディランゲージ認識の2つの下流タスクに適用される。
Udiva v0.5, First Impressions v2, MPII Group Interaction データセットの最先端結果を得た。
論文 参考訳(メタデータ) (2022-12-07T21:56:50Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - BEAT: A Large-Scale Semantic and Emotional Multi-Modal Dataset for
Conversational Gestures Synthesis [9.95713767110021]
Body-Expression-Audio-Textデータセットには、76時間、高品質、マルチモーダルなデータがあり、8つの異なる感情と4つの異なる言語で話す30人の話者から取得されている。
BEATは人間のジェスチャーを調べるための最大のモーションキャプチャーデータセットである。
論文 参考訳(メタデータ) (2022-03-10T11:19:52Z) - Let's Face It: Probabilistic Multi-modal Interlocutor-aware Generation
of Facial Gestures in Dyadic Settings [11.741529272872219]
より自然な対面インタラクションを可能にするために、会話エージェントは、彼らの振る舞いをインターロケータに適応させる必要がある。
既存のジェスチャ生成システムの多くは、非言語的振る舞いを合成する際に、インターロカタからのマルチモーダルキューを使用しない。
本稿では,対話における顔のジェスチャーを対話的に合成する確率的手法を提案する。
論文 参考訳(メタデータ) (2020-06-11T14:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。