論文の概要: Touch and Tell: Multimodal Decoding of Human Emotions and Social Gestures for Robots
- arxiv url: http://arxiv.org/abs/2412.03300v2
- Date: Tue, 12 Aug 2025 17:48:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 14:32:15.890692
- Title: Touch and Tell: Multimodal Decoding of Human Emotions and Social Gestures for Robots
- Title(参考訳): Touch and Tell:人間感情のマルチモーダルデコードとロボットのためのソーシャルジェスチャ
- Authors: Qiaoqiao Ren, Remko Proesmans, Yuanbo Hou, Francis wyffels, Tony Belpaeme,
- Abstract要約: 人間の感情は複雑で、微妙なタッチジェスチャーによって伝達される。
これまでの研究は主に、人間が触覚で感情を認識する方法や、ロボットの感情表現の重要な特徴を特定することに焦点を当ててきた。
本研究では,触覚と音による情緒的・外見的表現の一貫性と識別性について検討した。
- 参考スコア(独自算出の注目度): 4.072544789256895
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Human emotions are complex and can be conveyed through nuanced touch gestures. Previous research has primarily focused on how humans recognize emotions through touch or on identifying key features of emotional expression for robots. However, there is a gap in understanding how reliably these emotions and gestures can be communicated to robots via touch and interpreted using data driven methods. This study investigates the consistency and distinguishability of emotional and gestural expressions through touch and sound. To this end, we integrated a custom piezoresistive pressure sensor as well as a microphone on a social robot. Twenty-eight participants first conveyed ten different emotions to the robot using spontaneous touch gestures, then they performed six predefined social touch gestures. Our findings reveal statistically significant consistency in both emotion and gesture expression among participants. However, some emotions exhibited low intraclass correlation values, and certain emotions with similar levels of arousal or valence did not show significant differences in their conveyance. To investigate emotion and social gesture decoding within affective human-robot tactile interaction, we developed single-modality models and multimodal models integrating tactile and auditory features. A support vector machine (SVM) model trained on multimodal features achieved the highest accuracy for classifying ten emotions, reaching 40 %.For gesture classification, a Convolutional Neural Network- Long Short-Term Memory Network (CNN-LSTM) achieved 90.74 % accuracy. Our results demonstrate that even though the unimodal models have the potential to decode emotions and touch gestures, the multimodal integration of touch and sound significantly outperforms unimodal approaches, enhancing the decoding of both emotions and gestures.
- Abstract(参考訳): 人間の感情は複雑で、微妙なタッチジェスチャーによって伝達される。
これまでの研究は主に、人間が触覚で感情を認識する方法や、ロボットの感情表現の重要な特徴を特定することに焦点を当ててきた。
しかし、これらの感情やジェスチャーが、いかに確実にロボットと接触し、データ駆動方式で解釈できるかを理解するには、ギャップがある。
本研究では,触覚と音による情緒的・外見的表現の一貫性と識別性について検討した。
この目的のために、我々はカスタム圧圧センサとマイクをソーシャルロボットに組み込んだ。
被験者28人はまず、自発的なタッチジェスチャーを用いて10種類の感情をロボットに伝え、その後、事前に定義された6つの社会的タッチジェスチャーを実行した。
被験者の感情とジェスチャーの両表現に統計的に有意な一致が認められた。
しかし,一部の感情はクラス内相関値が低く,類似の覚醒的・有病的な感情は伝達に有意な差は認められなかった。
感情的な人間とロボットの触覚相互作用における感情と社会的ジェスチャーのデコーディングについて検討するため,触覚と聴覚を融合した単一モダリティモデルとマルチモーダルモデルを開発した。
マルチモーダル特徴を訓練したサポートベクターマシン(SVM)モデルは,10感情を分類する上で最高の精度を達成し,40%に達した。
ジェスチャー分類では、CNN-LSTM(Convolutional Neural Network- Long Short-Term Memory Network)が90.74%の精度を達成した。
以上の結果から, マルチモーダルモデルでは感情と触覚のデコードが可能であったとしても, 触覚と音のマルチモーダル統合により, 感情とジェスチャーの両方のデコードが大幅に向上することが示唆された。
関連論文リスト
- Empaths at SemEval-2025 Task 11: Retrieval-Augmented Approach to Perceived Emotions Prediction [83.88591755871734]
EmoRAGは、SemEval-2025 Task 11, Subtask A: Multi-label Emotion Detectionのためのテキスト中の知覚感情を検出するように設計されたシステムである。
我々は、与えられたテキストスニペットから話者の知覚された感情を予測することに集中し、喜び、悲しみ、恐怖、怒り、驚き、嫌悪感などの感情をラベル付けする。
論文 参考訳(メタデータ) (2025-06-04T19:41:24Z) - UDDETTS: Unifying Discrete and Dimensional Emotions for Controllable Emotional Text-to-Speech [34.89118596727314]
制御可能な感情的TTSのための離散的感情と次元的感情を統一したニューラル言語モデルであるUDDETTSを提案する。
このモデルは、次元的感情記述のための解釈可能なArousal-Dominance-Valence(ADV)空間を導入し、離散的な感情ラベルまたは非線形に定量化されたADV値によって駆動される感情制御をサポートする。
UDDETTSはADV空間の3次元に沿って線形感情制御を統一し、より優れたエンドツーエンドの感情音声合成能力を示す。
論文 参考訳(メタデータ) (2025-05-15T12:57:19Z) - EmoSphere-TTS: Emotional Style and Intensity Modeling via Spherical Emotion Vector for Controllable Emotional Text-to-Speech [34.03787613163788]
EmoSphere-TTSは球面感情ベクトルを用いて表現的感情音声を合成し、合成音声の感情的スタイルと強度を制御する。
マルチアスペクト特性を反映して生成した音声の品質を向上させるための2つの条件付き対向ネットワークを提案する。
論文 参考訳(メタデータ) (2024-06-12T01:40:29Z) - Self context-aware emotion perception on human-robot interaction [3.775456992482295]
人間は、文脈情報と異なる文脈が、全く異なる感情表現をもたらす可能性があると考えている。
異なる感情をアンカーし、再ラベルするための2次元感情座標システムを用いた自己文脈認識モデル(SCAM)を導入する。
このアプローチは、オーディオ、ビデオ、マルチモーダル環境において、大幅な改善をもたらした。
論文 参考訳(メタデータ) (2024-01-18T10:58:27Z) - emotion2vec: Self-Supervised Pre-Training for Speech Emotion
Representation [42.29118614670941]
普遍的な音声感情表現モデルである感情2vecを提案する。
感情2vecは自己監督型オンライン蒸留を通じてラベルなしの感情データに基づいて事前訓練される。
最先端の訓練済みユニバーサルモデルや感情スペシャリストモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-23T07:46:55Z) - Language Models (Mostly) Do Not Consider Emotion Triggers When Predicting Emotion [87.18073195745914]
人間の感情が感情の予測において有意であると考えられる特徴とどのように相関するかを検討する。
EmoTriggerを用いて、感情のトリガーを識別する大規模言語モデルの能力を評価する。
分析の結果、感情のトリガーは感情予測モデルにとって健全な特徴ではなく、様々な特徴と感情検出のタスクの間に複雑な相互作用があることが判明した。
論文 参考訳(メタデータ) (2023-11-16T06:20:13Z) - WEARS: Wearable Emotion AI with Real-time Sensor data [0.8740570557632509]
スマートウォッチセンサを用いてユーザの感情を予測するシステムを提案する。
英語と地域語を併用した動画をリアルタイムに収集する枠組みを設計する。
また、心拍数、加速度計、ジャイロセンサーデータなどの特徴が気分に与える影響について、アブレーション調査を行った。
論文 参考訳(メタデータ) (2023-08-22T11:03:00Z) - Speech Synthesis with Mixed Emotions [77.05097999561298]
異なる感情の音声サンプル間の相対的な差を測定する新しい定式化を提案する。
次に、私たちの定式化を、シーケンスからシーケンスまでの感情的なテキストから音声へのフレームワークに組み込む。
実行時に、感情属性ベクトルを手動で定義し、所望の感情混合を生成するためにモデルを制御する。
論文 参考訳(メタデータ) (2022-08-11T15:45:58Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - A Circular-Structured Representation for Visual Emotion Distribution
Learning [82.89776298753661]
視覚的感情分布学習に先立つ知識を活用するために,身近な円形構造表現を提案する。
具体的には、まず感情圏を構築し、その内にある感情状態を統一する。
提案した感情圏では、各感情分布は3つの属性で定義される感情ベクトルで表される。
論文 参考訳(メタデータ) (2021-06-23T14:53:27Z) - Enhancing Cognitive Models of Emotions with Representation Learning [58.2386408470585]
本稿では,きめ細かな感情の埋め込み表現を生成するための,新しいディープラーニングフレームワークを提案する。
本フレームワークは,コンテキスト型埋め込みエンコーダとマルチヘッド探索モデルを統合する。
本モデルは共感対話データセット上で評価され,32種類の感情を分類する最新結果を示す。
論文 参考訳(メタデータ) (2021-04-20T16:55:15Z) - Emotion Recognition From Gait Analyses: Current Research and Future
Directions [48.93172413752614]
歩行はウォーカーの感情に関する情報を伝える
様々な感情と歩行パターンのマッピングは、感情の自動認識のための新しい情報源を提供する。
歩行は遠隔観察可能で 模倣が困難で 被験者との協力も少ない
論文 参考訳(メタデータ) (2020-03-13T08:22:33Z) - ProxEmo: Gait-based Emotion Learning and Multi-view Proxemic Fusion for
Socially-Aware Robot Navigation [65.11858854040543]
本稿では,歩行者間のロボットナビゲーションのための感情予測アルゴリズムProxEmoを提案する。
提案手法は歩行歩行から歩行者の知覚された感情を予測し,感情誘導ナビゲーションに使用する。
論文 参考訳(メタデータ) (2020-03-02T17:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。