論文の概要: Multi-dimensional Evaluation of Empathetic Dialog Responses
- arxiv url: http://arxiv.org/abs/2402.11409v1
- Date: Sun, 18 Feb 2024 00:32:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 21:36:27.798502
- Title: Multi-dimensional Evaluation of Empathetic Dialog Responses
- Title(参考訳): 共感的対話応答の多次元評価
- Authors: Zhichao Xu, Jiepu Jiang
- Abstract要約: 話者の視点から表現された意図と聴取者の視点から認識された共感の両方を測定するための多次元共感評価フレームワークを提案する。
内部の顧客サービス対話の分析に提案されたフレームワークを適用すると、2つの次元が相互接続されていることがわかる。
- 参考スコア(独自算出の注目度): 5.411825323689905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Empathy is a critical element of effective and satisfactory conversational
communication, yet previous studies in measuring conversational empathy mostly
focus on expressed communicative intents -- in which way empathy is expressed,
ignoring the fact that conversation is also a collaborative practice involving
both speakers and listeners. In contrast, we propose a multi-dimensional
empathy evaluation framework that extends upon existing work to measure both
expressed intents from the speaker's perspective and perceived empathy from the
listener's perspective. Applying the proposed framework to analyzing our
internal customer-service dialogue shows that the two dimensions (expressed
intent types and perceived empathy) are inter-connected, while perceived
empathy has high correlation with the satisfactory level of dialogue sessions.
This proposed framework still requires subjective assessments from trained
annotators, which can be non-trivial to collect. To scale up evaluation without
excessive reliance on carefully annotated data, we explore different modeling
options to automatically measure conversational empathy with (1) prompting
frozen large language models (LLMs) and (2) training language model-based
classifiers. Extensive experiments on both internal and external dialogue
datasets show that measuring conversational empathy remains a challenging task
for prompting frozen LLMs, reflected by less satisfying performance of GPT-4
and Flan family models. On the other hand, our proposed instruction-finetuned
classifiers based on sequence-to-sequence (Seq2Seq) language models is able to
achieve the best performance compared to prior works and competitive baselines.
Finally, we perform comprehensive ablation studies on the performance of
proposed instruction-finetuned classifiers and give recommendations on
potentially adopting them as automatic conversational empathy evaluation
metrics.
- Abstract(参考訳): 共感は効果的な会話コミュニケーションの重要な要素であるが、会話の共感を測定する以前の研究は、主に表現されたコミュニケーションの意図に焦点を当てている。
対照的に,話者の視点から表現された意図と聞き手の視点から知覚された共感の両方を測定するために,既存の作業を拡張する多次元共感評価フレームワークを提案する。
提案手法を適用して顧客・サービス対話の分析を行ったところ,2次元(表現意図型と知覚共感)は相互に関連しており,共感感は対話セッションの満足度と高い相関関係にあることがわかった。
このフレームワークでは、トレーニングされたアノテータからの主観的な評価が必要である。
そこで我々は,(1)凍結した大言語モデル(LLM)と(2)学習言語モデルに基づく分類器を用いて,対話的共感を自動的に計測する様々なモデリングオプションについて検討した。
GPT-4およびFlanファミリーモデルの性能の低下を反映して、内部および外部の対話データセットの広範な実験により、会話の共感を測定することは、凍結LDMの促進に依然として困難な課題であることが示された。
一方,sequence-to-sequence (seq2seq) 言語モデルに基づく提案手法は,先行研究や競合ベースラインと比較して最高の性能を実現することができる。
最後に,提案する命令精細分類器の性能に関する包括的アブレーション研究を行い,自動会話共感評価指標として採用する可能性について推奨する。
関連論文リスト
- Can LLMs Understand the Implication of Emphasized Sentences in Dialogue? [64.72966061510375]
強調は人間のコミュニケーションにおいて重要な要素であり、対話における純粋テキストを超えて話者の意図と含意を示す。
本稿では,強調の意味を抽出した強調注釈付き対話サンプルを用いたベンチマークであるEmphasized-Talkを紹介する。
オープンソースと商用の両方で様々な大規模言語モデル(LLM)を評価し,その性能を重要視して評価する。
論文 参考訳(メタデータ) (2024-06-16T20:41:44Z) - deep learning of segment-level feature representation for speech emotion
recognition in conversations [9.432208348863336]
そこで本稿では,意図的文脈依存と話者感応的相互作用をキャプチャする対話型音声感情認識手法を提案する。
まず、事前訓練されたVGGishモデルを用いて、個々の発話におけるセグメントベース音声表現を抽出する。
第2に、注意的双方向リカレントユニット(GRU)は、文脈に敏感な情報をモデル化し、話者内および話者間依存関係を共同で探索する。
論文 参考訳(メタデータ) (2023-02-05T16:15:46Z) - EmpBot: A T5-based Empathetic Chatbot focusing on Sentiments [75.11753644302385]
共感的会話エージェントは、議論されていることを理解しているだけでなく、会話相手の暗黙の感情も認識すべきである。
変圧器事前学習言語モデル(T5)に基づく手法を提案する。
本研究では,自動計測と人的評価の両方を用いて,情緒的ダイアログデータセットを用いたモデルの評価を行った。
論文 参考訳(メタデータ) (2021-10-30T19:04:48Z) - Constructing Emotion Consensus and Utilizing Unpaired Data for
Empathetic Dialogue Generation [22.2430593119389]
本稿では、感情のコンセンサスを同時に構築し、外部の未ペアデータを利用するための二重生成モデルDual-Empを提案する。
本手法は,コヒーレントかつ共感的応答の獲得において,競争ベースラインよりも優れる。
論文 参考訳(メタデータ) (2021-09-16T07:57:01Z) - Exemplars-guided Empathetic Response Generation Controlled by the
Elements of Human Communication [88.52901763928045]
そこで本稿では, インターロケータへの共感を伝達する, 造形モデルによる細かな構造的特性の解明に先立って, 模範的手法を提案する。
これらの手法は, 自動評価指標と人的評価指標の両方の観点から, 共感的応答品質の大幅な改善をもたらすことを実証的に示す。
論文 参考訳(メタデータ) (2021-06-22T14:02:33Z) - DynaEval: Unifying Turn and Dialogue Level Evaluation [60.66883575106898]
統合された自動評価フレームワークDynaEvalを提案する。
ターンレベルの評価を行うことができるが、対話全体の品質を公平に考慮することもできる。
実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-06-02T12:23:18Z) - BiERU: Bidirectional Emotional Recurrent Unit for Conversational
Sentiment Analysis [18.1320976106637]
会話感情分析と単文感情分析の主な違いは、文脈情報の存在である。
既存のアプローチでは、会話内の異なるパーティを区別し、コンテキスト情報をモデル化するために複雑なディープラーニング構造を採用している。
本稿では,会話感情分析のための双方向感情的反復単位という,高速でコンパクトでパラメータ効率のよい非依存フレームワークを提案する。
論文 参考訳(メタデータ) (2020-05-31T11:13:13Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z) - You Impress Me: Dialogue Generation via Mutual Persona Perception [62.89449096369027]
認知科学の研究は、理解が高品質なチャット会話に不可欠なシグナルであることを示唆している。
そこで我々は,P2 Botを提案する。このP2 Botは,理解を明示的にモデル化することを目的とした送信機受信者ベースのフレームワークである。
論文 参考訳(メタデータ) (2020-04-11T12:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。