論文の概要: Exploring Emotion Expression Recognition in Older Adults Interacting
with a Virtual Coach
- arxiv url: http://arxiv.org/abs/2311.05567v1
- Date: Thu, 9 Nov 2023 18:22:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 14:15:11.339052
- Title: Exploring Emotion Expression Recognition in Older Adults Interacting
with a Virtual Coach
- Title(参考訳): バーチャルコーチと対話する高齢者の感情表現認識の検討
- Authors: Cristina Palmero, Mikel deVelasco, Mohamed Amine Hmani, Aymen Mtibaa,
Leila Ben Letaifa, Pau Buch-Cardona, Raquel Justo, Terry Amorese, Eduardo
Gonz\'alez-Fraile, Bego\~na Fern\'andez-Ruanova, Jofre Tenorio-Laranga, Anna
Torp Johansen, Micaela Rodrigues da Silva, Liva Jenny Martinussen, Maria
Stylianou Korsnes, Gennaro Cordasco, Anna Esposito, Mounim A. El-Yacoubi,
Dijana Petrovska-Delacr\'etaz, M. In\'es Torres and Sergio Escalera
- Abstract要約: EMPATHICプロジェクトは、健康な高齢者が健康を改善し、自立した高齢化を促進することができる感情表現型バーチャルコーチを設計することを目的としている。
本稿では,仮想コーチの感情表現認識モジュールの開発について概説し,データ収集,アノテーション設計,第1の方法論的アプローチについて述べる。
- 参考スコア(独自算出の注目度): 22.00225071959289
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The EMPATHIC project aimed to design an emotionally expressive virtual coach
capable of engaging healthy seniors to improve well-being and promote
independent aging. One of the core aspects of the system is its human sensing
capabilities, allowing for the perception of emotional states to provide a
personalized experience. This paper outlines the development of the emotion
expression recognition module of the virtual coach, encompassing data
collection, annotation design, and a first methodological approach, all
tailored to the project requirements. With the latter, we investigate the role
of various modalities, individually and combined, for discrete emotion
expression recognition in this context: speech from audio, and facial
expressions, gaze, and head dynamics from video. The collected corpus includes
users from Spain, France, and Norway, and was annotated separately for the
audio and video channels with distinct emotional labels, allowing for a
performance comparison across cultures and label types. Results confirm the
informative power of the modalities studied for the emotional categories
considered, with multimodal methods generally outperforming others (around 68%
accuracy with audio labels and 72-74% with video labels). The findings are
expected to contribute to the limited literature on emotion recognition applied
to older adults in conversational human-machine interaction.
- Abstract(参考訳): EMPATHICプロジェクトは、健康な高齢者が健康を改善し、自立した高齢化を促進することができる感情表現型バーチャルコーチを設計することを目的としている。
システムの中核的な側面の1つは、人間の感知能力であり、感情状態の知覚がパーソナライズされた体験を提供できる。
本稿では, 仮想コーチの感情表現認識モジュールの開発について概説し, データ収集, アノテーション設計, およびプロジェクト要件に合わせた最初の方法論的アプローチについて述べる。
後者では,音声からの発話,表情,視線,映像からの頭部動画像など,感情表現認識における個人的および複合的な多様なモダリティの役割について検討する。
収集されたコーパスには、スペイン、フランス、ノルウェーのユーザが含まれており、異なる感情的なラベルを持つオーディオとビデオチャンネルのために別々に注釈付けされ、文化とラベルタイプ間のパフォーマンス比較を可能にした。
以上の結果から,感情カテゴリーを対象としたモダリティの伝達力は,音声ラベルでは約68%,ビデオラベルでは72~74%の精度で他よりも優れていた。
これらの結果は,高齢者の会話型人間-機械インタラクションにおける感情認識に関する限られた文献に寄与することが期待される。
関連論文リスト
- Dual-path Collaborative Generation Network for Emotional Video Captioning [33.230028098522254]
感情的ビデオキャプション(Emotional Video Captioning)は、ビデオで表現される本質的な感情で事実的コンテンツを記述することを目的とした、新たなタスクである。
既存の感情的ビデオキャプション手法は、最初は世界的視覚的感情的手がかりを認識し、ビデオ機能と組み合わせて感情的キャプション生成を導く。
本稿では、感情的なキャプションを生成しながら、動的に視覚的な感情的手がかりを知覚するデュアルパス協調生成ネットワークを提案する。
論文 参考訳(メタデータ) (2024-08-06T07:30:53Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Seeking Subjectivity in Visual Emotion Distribution Learning [93.96205258496697]
視覚感情分析(VEA)は、人々の感情を異なる視覚刺激に向けて予測することを目的としている。
既存の手法では、集団投票プロセスにおいて固有の主観性を無視して、統合されたネットワークにおける視覚的感情分布を予測することが多い。
視覚的感情分布の主観性を調べるために,新しいテキストサブジェクティビティ評価ネットワーク(SAMNet)を提案する。
論文 参考訳(メタデータ) (2022-07-25T02:20:03Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - Stimuli-Aware Visual Emotion Analysis [75.68305830514007]
本稿では,刺激選択,特徴抽出,感情予測の3段階からなる刺激認識型視覚感情分析(VEA)手法を提案する。
我々の知る限りでは、エンド・ツー・エンドのネットワークでVEAに刺激選択プロセスを導入するのは初めてです。
実験により、提案手法は、4つの公的な視覚的感情データセットに対する最先端のアプローチよりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2021-09-04T08:14:52Z) - Affective Image Content Analysis: Two Decades Review and New
Perspectives [132.889649256384]
我々は,過去20年間の情緒的イメージコンテンツ分析(AICA)の発展を包括的にレビューする。
我々は、感情的ギャップ、知覚主観性、ラベルノイズと欠如という3つの主要な課題に関して、最先端の手法に焦点を当てる。
画像の内容やコンテキスト理解,グループ感情クラスタリング,ビューアーとイメージのインタラクションなど,今後の課題や研究の方向性について論じる。
論文 参考訳(メタデータ) (2021-06-30T15:20:56Z) - EmoDNN: Understanding emotions from short texts through a deep neural
network ensemble [2.459874436804819]
本稿では,短い内容から潜伏した個々の側面を推定する枠組みを提案する。
また,テキストコンテキストから感情を抽出する動的ドロップアウト共振器を備えた新しいアンサンブル分類器を提案する。
提案モデルでは,ノイズのある内容から感情を認識する上で,高い性能を実現することができる。
論文 参考訳(メタデータ) (2021-06-03T09:17:34Z) - Infusing Multi-Source Knowledge with Heterogeneous Graph Neural Network
for Emotional Conversation Generation [25.808037796936766]
実世界の会話では,マルチソース情報から感情を直感的に知覚する。
感情的会話生成のための異種グラフモデルを提案する。
実験結果は,本モデルがマルチソース知識から感情を効果的に知覚できることを示した。
論文 参考訳(メタデータ) (2020-12-09T06:09:31Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z) - Speech Driven Talking Face Generation from a Single Image and an Emotion
Condition [28.52180268019401]
音声駆動音声合成における視覚的感情表現のレンダリングのための新しい手法を提案する。
本研究では, 音声音声, 単一顔画像, カテゴリー感情ラベルを入力として, エンドツーエンドの音声音声生成システムの設計を行う。
画像品質,視覚的同期,視覚的感情表現を客観的に評価した結果,提案システムは最先端のベースラインシステムよりも優れていた。
論文 参考訳(メタデータ) (2020-08-08T20:46:31Z) - Temporal aggregation of audio-visual modalities for emotion recognition [0.5352699766206808]
本研究では,時間的オフセットの異なる時間的オフセットと時間的ウィンドウからの音声・視覚的モダリティを組み合わせた感情認識のためのマルチモーダル融合手法を提案する。
提案手法は,文献と人間の精度評価から,他の手法よりも優れている。
論文 参考訳(メタデータ) (2020-07-08T18:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。