論文の概要: E-THER: A Multimodal Dataset for Empathic AI - Towards Emotional Mismatch Awareness
- arxiv url: http://arxiv.org/abs/2509.02100v2
- Date: Mon, 08 Sep 2025 08:37:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.362317
- Title: E-THER: A Multimodal Dataset for Empathic AI - Towards Emotional Mismatch Awareness
- Title(参考訳): E-THER: 共感型AIのためのマルチモーダルデータセット - 感情的ミスマッチ認識に向けて
- Authors: Sharjeel Tahir, Judith Johnson, Jumana Abu-Khalaf, Syed Afaq Ali Shah,
- Abstract要約: E-THERは言語・視覚的不一致検出のための多次元アノテーションを付加したパーソナライズ・センタード・セラピー・グラウンドド・マルチモーダル・データセットである。
一致訓練されたモデルが、臨界特性において汎用モデルより優れていることを示す。
- 参考スコア(独自算出の注目度): 3.8298581733964903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A prevalent shortfall among current empathic AI systems is their inability to recognize when verbal expressions may not fully reflect underlying emotional states. This is because the existing datasets, used for the training of these systems, focus on surface-level emotion recognition without addressing the complex verbal-visual incongruence (mismatch) patterns useful for empathic understanding. In this paper, we present E-THER, the first Person-Centered Therapy-grounded multimodal dataset with multidimensional annotations for verbal-visual incongruence detection, enabling training of AI systems that develop genuine rather than performative empathic capabilities. The annotations included in the dataset are drawn from humanistic approach, i.e., identifying verbal-visual emotional misalignment in client-counsellor interactions - forming a framework for training and evaluating AI on empathy tasks. Additional engagement scores provide behavioral annotations for research applications. Notable gains in empathic and therapeutic conversational qualities are observed in state-of-the-art vision-language models (VLMs), such as IDEFICS and VideoLLAVA, using evaluation metrics grounded in empathic and therapeutic principles. Empirical findings indicate that our incongruence-trained models outperform general-purpose models in critical traits, such as sustaining therapeutic engagement, minimizing artificial or exaggerated linguistic patterns, and maintaining fidelity to PCT theoretical framework.
- Abstract(参考訳): 現在の共感型AIシステムでは、言語表現が根底にある感情状態を完全に反映していないことを認識できないことが大きな欠点である。
これは、これらのシステムのトレーニングに使用される既存のデータセットが、共感的理解に役立つ複雑な言語-視覚的不一致(ミスマッチ)パターンに対処することなく、表面レベルの感情認識に焦点を当てているためである。
本稿では,言語・視覚的不一致検出のための多次元アノテーションを付加した,最初の人中心療法によるマルチモーダルデータセットであるE-THERについて述べる。
データセットに含まれるアノテーションは、人文主義的アプローチ、すなわち、クライアントと顧客の相互作用における言語的・視覚的感情的不一致を識別する、共感タスク上でAIを訓練し評価するためのフレームワークを形成する。
追加のエンゲージメントスコアは、研究アプリケーションに振る舞いアノテーションを提供する。
IDEFICSやVideoLLAVAのような最先端のビジョン言語モデル(VLM)では、共感的および治療的会話品質の顕著な向上が観察されている。
実験結果から, 治療継続, 人工言語パターン, 誇張言語パターンの最小化, PCT理論フレームワークへの忠実性の維持など, 重要形質の汎用モデルよりも優れていたことが示唆された。
関連論文リスト
- Two in One Go: Single-stage Emotion Recognition with Decoupled Subject-context Transformer [78.35816158511523]
単段階の感情認識手法として,DSCT(Decoupled Subject-Context Transformer)を用いる。
広範に使われている文脈認識型感情認識データセットであるCAER-SとEMOTICの単段階フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-04-26T07:30:32Z) - Probabilistic emotion and sentiment modelling of patient-reported
experiences [0.04096453902709291]
本研究では,オンライン体験談話から患者感情をモデル化する新しい手法を提案する。
ケアオピニオンから患者が報告した経験を分析するために,メタデータネットワークトピックをモデル化する。
マルチラベル感情とバイナリ感情の両方を予測できる確率論的・文脈特異的感情推薦システムを開発した。
論文 参考訳(メタデータ) (2024-01-09T05:39:20Z) - Unifying the Discrete and Continuous Emotion labels for Speech Emotion
Recognition [28.881092401807894]
音声からの感情検出のためのパラ言語分析では、感情は離散的または次元的(連続的な評価)ラベルと同一視されている。
本研究では,連続的感情特性と離散的感情特性を共同で予測するモデルを提案する。
論文 参考訳(メタデータ) (2022-10-29T16:12:31Z) - Affect-DML: Context-Aware One-Shot Recognition of Human Affect using
Deep Metric Learning [29.262204241732565]
既存の方法は、すべての関心の感情に注釈付きトレーニングの例として優先順位が与えられると仮定している。
我々は、文脈における感情のワンショット認識を概念化し、単一のサポートサンプルからより細かい粒子レベルの人間の影響状態を認識することを目的とした新しい問題である。
モデルの全変種は、ランダムなベースラインよりも明らかに優れており、セマンティックシーンのコンテキストを活用することで、学習された表現を一貫して改善している。
論文 参考訳(メタデータ) (2021-11-30T10:35:20Z) - Few-shot Learning in Emotion Recognition of Spontaneous Speech Using a
Siamese Neural Network with Adaptive Sample Pair Formation [11.592365534228895]
本稿では,少数のラベル付きサンプルから自然発話中の感情を自動的に認識するための,数発の学習手法を提案する。
ほとんどショットラーニングは、シアムニューラルネットワークを介してメトリックラーニングアプローチによって実装されている。
その結果,4つのデータセットにおける自発音声からの感情認識におけるメトリック学習の有効性が示唆された。
論文 参考訳(メタデータ) (2021-09-07T08:04:02Z) - Towards Unbiased Visual Emotion Recognition via Causal Intervention [63.74095927462]
本稿では,データセットバイアスによる負の効果を軽減するために,新しい感情認識ネットワーク(IERN)を提案する。
IERNの有効性を検証する一連の設計されたテストと、3つの感情ベンチマークの実験は、IERNが他の最先端のアプローチよりも優れていることを示した。
論文 参考訳(メタデータ) (2021-07-26T10:40:59Z) - Automated Quality Assessment of Cognitive Behavioral Therapy Sessions
Through Highly Contextualized Language Representations [34.670548892766625]
認知行動療法(Cognitive Behavioral Therapy, CBT)という,特定の心理療法の行動自動スコアリングモデルを提案する。
このモデルは高い解釈可能性を達成するためにマルチタスクで訓練される。
BERTベースの表現は、利用可能な治療メタデータでさらに拡張され、関連する非言語的コンテキストを提供し、一貫したパフォーマンス改善につながります。
論文 参考訳(メタデータ) (2021-02-23T09:22:29Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Pose-based Body Language Recognition for Emotion and Psychiatric Symptom
Interpretation [75.3147962600095]
通常のRGBビデオから始まるボディーランゲージに基づく感情認識のための自動フレームワークを提案する。
心理学者との連携により,精神症状予測の枠組みを拡張した。
提案されたフレームワークの特定のアプリケーションドメインは限られた量のデータしか供給しないため、フレームワークは小さなトレーニングセットで動作するように設計されている。
論文 参考訳(メタデータ) (2020-10-30T18:45:16Z) - Continuous Emotion Recognition via Deep Convolutional Autoencoder and
Support Vector Regressor [70.2226417364135]
マシンはユーザの感情状態を高い精度で認識できることが不可欠である。
ディープニューラルネットワークは感情を認識する上で大きな成功を収めている。
表情認識に基づく連続的感情認識のための新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-01-31T17:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。