論文の概要: Evaluating multimodal emotion recognition in proactive conversational agents: A user study
- arxiv url: http://arxiv.org/abs/2605.20200v1
- Date: Mon, 06 Apr 2026 15:11:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.965359
- Title: Evaluating multimodal emotion recognition in proactive conversational agents: A user study
- Title(参考訳): プロアクティブ会話エージェントにおけるマルチモーダル感情認識の評価 : ユーザスタディ
- Authors: Adnana Dragut, Raquel Lacuesta, F. Xavier Gaya-Morey, Jose M. Buades-Rubio,
- Abstract要約: 本稿では,多モーダル感情認識モジュールを,生成人工知能を利用した能動的社会対話エージェント(SIA)に統合する。
このシステムは、コンピュータビジョンベースの顔認識モジュールと意味論的言語分析エンジンという、2つの異なるチャンネルを通してリアルタイムな情緒状態を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This article presents a multimodal emotion recognition module integrated into a proactive Socially Interactive Agent (SIA) powered by generative artificial intelligence. The system evaluates real-time affective states through two distinct channels: a computer vision-based facial recognition module and a semantic linguistic analysis engine. To validate the framework, an empirical study was conducted with 20 users who engaged in dynamic, unscripted dialogues with the conversational agent. The findings reveal a significant discrepancy between automated visual cues and actual internal emotional states. When interacting with the AI, users consistently exhibited a "poker face" effect, displaying serious, concentrated facial expressions even when experiencing positive emotions. Consequently, the generative AI linguistic analysis proved significantly more reliable, by contextualizing the users' verbal expressions. Furthermore, an analysis of the interaction dynamics demonstrated that SIAs can effectively elicit specific emotions by adapting conversational themes and employing structured linguistic patterns, such as empathetic or humorous language. However, the study also noted that instances of uncalibrated proactivity occasionally led to user disengagement and a perception of artificiality. Ultimately, this research highlights the necessity of refining SIAs to dynamically adapt to users' emotional evolution, relying on deep linguistic context to foster more natural, human-like interactions.
- Abstract(参考訳): 本稿では,多モーダル感情認識モジュールを,生成人工知能を利用した能動的社会対話エージェント(SIA)に統合する。
このシステムは、コンピュータビジョンベースの顔認識モジュールと意味論的言語分析エンジンという、2つの異なるチャンネルを通してリアルタイムな情緒状態を評価する。
この枠組みを検証するために,対話エージェントと動的に記述されていない対話を行う20名のユーザを対象に,実験的検討を行った。
この結果から,視覚的視覚的手がかりと実際の内的情動状態との間に有意な相違が認められた。
AIと対話する際、ユーザは常に「ポーカーフェイス」効果を示し、ポジティブな感情を経験しても、真剣で集中した表情を表示する。
その結果、生成的AI言語分析は、ユーザの言葉表現を文脈化することによって、はるかに信頼性が高いことが判明した。
さらに,対話動態の分析により,会話のテーマに適応し,共感やユーモラス言語などの構造的言語パターンを取り入れることで,SIAが特定の感情を効果的に引き出すことができることが示された。
しかし、この研究は、不適格な活動の事例が時折、ユーザーの離脱と人工性に対する認識に繋がると指摘した。
究極的には、この研究は、より自然で人間に似たインタラクションを育むために、深い言語コンテキストに依存して、ユーザの感情的進化に動的に適応するために、SIAを精細化する必要性を強調している。
関連論文リスト
- Decoding Ambiguous Emotions with Test-Time Scaling in Audio-Language Models [18.059483722792077]
テスト時間スケーリング下でのALMを用いた音声におけるあいまいな感情認識のための最初のベンチマークを紹介する。
本評価では,8つの最先端ALMと5つのTTS戦略を,3つの顕著な音声感情データセットに対して体系的に比較した。
私たちのベンチマークは、より堅牢でコンテキスト対応で感情的にインテリジェントな音声ベースのAIシステムを開発するための基盤を確立します。
論文 参考訳(メタデータ) (2026-02-01T07:41:57Z) - A Unified Spoken Language Model with Injected Emotional-Attribution Thinking for Human-like Interaction [50.05919688888947]
本稿では,感情的インテリジェンスのための統一言語モデルを提案する。
IEATは、ユーザーの感情状態とその根本原因をモデルの内部推論プロセスに組み込んでおり、明示的な監督として扱われるのではなく、感情を意識した推論を内部化することができる。
HumDial(Human-like Spoken Dialogue Systems Challenge)Emotional Intelligenceベンチマークの実験は、提案手法が感情軌道モデリング、感情的推論、共感的応答生成にまたがるトップランクのパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2026-01-08T14:07:30Z) - Modelling the Interplay of Eye-Tracking Temporal Dynamics and Personality for Emotion Detection in Face-to-Face Settings [1.2600839346487007]
本研究は、視線追跡シーケンス、ビッグファイブの性格特性、文脈刺激を統合して、知覚と知覚の両方の感情を予測するパーソナリティ対応のマルチモーダル・フレームワークを提案する。
その結果、刺激が感情予測を強く促進する一方、性格特性は感情認識に最大の改善をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2025-09-19T16:05:23Z) - Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - GatedxLSTM: A Multimodal Affective Computing Approach for Emotion Recognition in Conversations [35.63053777817013]
GatedxLSTMは、会話におけるマルチモーダル感情認識(ERC)モデルである。
話者と会話相手の双方の声と書き起こしを考慮し、感情的なシフトを駆動する最も影響力のある文章を特定する。
4クラスの感情分類において,オープンソース手法間でのSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2025-03-26T18:46:18Z) - Modelling Emotions in Face-to-Face Setting: The Interplay of Eye-Tracking, Personality, and Temporal Dynamics [1.6029719942799865]
本研究では、視線追跡データ、時間的ダイナミクス、性格特性を統合することで、知覚と知覚の両方の感情の検出を大幅に向上させる方法について述べる。
本研究は,将来の情緒コンピューティングと人間エージェントシステムの設計を示唆するものである。
論文 参考訳(メタデータ) (2025-03-18T13:15:32Z) - When Words Smile: Generating Diverse Emotional Facial Expressions from Text [77.1867389815291]
本稿では,感情動態に着目したエンドツーエンドのテキスト対表現モデルを提案する。
我々のモデルは連続的な潜伏空間における表情の変動を学習し、多様な、流動的で、感情的に一貫性のある表現を生成する。
論文 参考訳(メタデータ) (2024-12-03T15:39:05Z) - Dynamic Causal Disentanglement Model for Dialogue Emotion Detection [77.96255121683011]
隠れ変数分離に基づく動的因果解離モデルを提案する。
このモデルは、対話の内容を効果的に分解し、感情の時間的蓄積を調べる。
具体的には,発話と隠れ変数の伝搬を推定する動的時間的ゆがみモデルを提案する。
論文 参考訳(メタデータ) (2023-09-13T12:58:09Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。