論文の概要: Multi-dimensional Evaluation of Empathetic Dialog Responses
- arxiv url: http://arxiv.org/abs/2402.11409v3
- Date: Fri, 11 Oct 2024 22:30:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:03:16.837854
- Title: Multi-dimensional Evaluation of Empathetic Dialog Responses
- Title(参考訳): 共感的対話応答の多次元評価
- Authors: Zhichao Xu, Jiepu Jiang,
- Abstract要約: 話者の視点から表現された意図と聴取者の視点から認識された共感の両方を測定するための多次元共感評価フレームワークを提案する。
両次元が相互接続されているのに対して,共感は対話満足度と高い相関関係にあることがわかった。
- 参考スコア(独自算出の注目度): 4.580983642743026
- License:
- Abstract: Empathy is critical for effective and satisfactory conversational communication. Prior efforts to measure conversational empathy mostly focus on expressed communicative intents -- that is, the way empathy is expressed. Yet, these works ignore the fact that conversation is also a collaboration involving both speakers and listeners. In contrast, we propose a multi-dimensional empathy evaluation framework to measure both \emph{expressed intents from the speaker's perspective} and \emph{perceived empathy from the listener's perspective}. We apply our analytical framework to examine internal customer-service dialogues. We find the two dimensions (expressed intent types and perceived empathy) are inter-connected, while perceived empathy has high correlations with dialogue satisfaction levels. To reduce the annotation cost, we explore different options to automatically measure conversational empathy: prompting LLMs and training language model-based classifiers. Our experiments show that prompting methods with even popular models like GPT-4 and Flan family models perform relatively poorly on both public and our internal datasets. In contrast, instruction-finetuned classifiers based on Flan-T5 family models outperform prior works and competitive baselines. We conduct a detailed ablation study to give more insights into instruction finetuning method's strong performance.
- Abstract(参考訳): 共感は効果的な会話コミュニケーションに不可欠である。
会話の共感を測る以前の取り組みは、主にコミュニケーションの意図を表現することに焦点を当てていた。
しかし、これらの作業は、会話が話者とリスナーの両方のコラボレーションでもあるという事実を無視している。
対照的に、話者の視点から「emph{presented intents」と「emph{perceived empathy from the listener's perspective}」の両方を測定するための多次元共感評価フレームワークを提案する。
内部の顧客サービス対話を調べるために分析枠組みを適用した。
両次元(表現的意図型と認識的共感)が相互に接続されているのに対し,認識的共感は対話満足度と高い相関関係にある。
アノテーションのコストを削減するために,LLMや言語モデルに基づく分類器の訓練など,会話の共感を自動的に計測するさまざまな選択肢を探索する。
我々の実験は、GPT-4やFlanファミリーモデルのような人気モデルでさえも、パブリックデータセットと内部データセットの両方で比較的低性能であることを示す。
対照的に、Flan-T5ファミリーモデルに基づく命令精細分類器は、事前の作業や競争ベースラインよりも優れている。
我々は,命令微調整手法の強靭な性能についてより深い知見を得るために,詳細なアブレーション研究を行う。
関連論文リスト
- Can LLMs Understand the Implication of Emphasized Sentences in Dialogue? [64.72966061510375]
強調は人間のコミュニケーションにおいて重要な要素であり、対話における純粋テキストを超えて話者の意図と含意を示す。
本稿では,強調の意味を抽出した強調注釈付き対話サンプルを用いたベンチマークであるEmphasized-Talkを紹介する。
オープンソースと商用の両方で様々な大規模言語モデル(LLM)を評価し,その性能を重要視して評価する。
論文 参考訳(メタデータ) (2024-06-16T20:41:44Z) - deep learning of segment-level feature representation for speech emotion
recognition in conversations [9.432208348863336]
そこで本稿では,意図的文脈依存と話者感応的相互作用をキャプチャする対話型音声感情認識手法を提案する。
まず、事前訓練されたVGGishモデルを用いて、個々の発話におけるセグメントベース音声表現を抽出する。
第2に、注意的双方向リカレントユニット(GRU)は、文脈に敏感な情報をモデル化し、話者内および話者間依存関係を共同で探索する。
論文 参考訳(メタデータ) (2023-02-05T16:15:46Z) - EmpBot: A T5-based Empathetic Chatbot focusing on Sentiments [75.11753644302385]
共感的会話エージェントは、議論されていることを理解しているだけでなく、会話相手の暗黙の感情も認識すべきである。
変圧器事前学習言語モデル(T5)に基づく手法を提案する。
本研究では,自動計測と人的評価の両方を用いて,情緒的ダイアログデータセットを用いたモデルの評価を行った。
論文 参考訳(メタデータ) (2021-10-30T19:04:48Z) - Constructing Emotion Consensus and Utilizing Unpaired Data for
Empathetic Dialogue Generation [22.2430593119389]
本稿では、感情のコンセンサスを同時に構築し、外部の未ペアデータを利用するための二重生成モデルDual-Empを提案する。
本手法は,コヒーレントかつ共感的応答の獲得において,競争ベースラインよりも優れる。
論文 参考訳(メタデータ) (2021-09-16T07:57:01Z) - Exemplars-guided Empathetic Response Generation Controlled by the
Elements of Human Communication [88.52901763928045]
そこで本稿では, インターロケータへの共感を伝達する, 造形モデルによる細かな構造的特性の解明に先立って, 模範的手法を提案する。
これらの手法は, 自動評価指標と人的評価指標の両方の観点から, 共感的応答品質の大幅な改善をもたらすことを実証的に示す。
論文 参考訳(メタデータ) (2021-06-22T14:02:33Z) - DynaEval: Unifying Turn and Dialogue Level Evaluation [60.66883575106898]
統合された自動評価フレームワークDynaEvalを提案する。
ターンレベルの評価を行うことができるが、対話全体の品質を公平に考慮することもできる。
実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-06-02T12:23:18Z) - BiERU: Bidirectional Emotional Recurrent Unit for Conversational
Sentiment Analysis [18.1320976106637]
会話感情分析と単文感情分析の主な違いは、文脈情報の存在である。
既存のアプローチでは、会話内の異なるパーティを区別し、コンテキスト情報をモデル化するために複雑なディープラーニング構造を採用している。
本稿では,会話感情分析のための双方向感情的反復単位という,高速でコンパクトでパラメータ効率のよい非依存フレームワークを提案する。
論文 参考訳(メタデータ) (2020-05-31T11:13:13Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z) - You Impress Me: Dialogue Generation via Mutual Persona Perception [62.89449096369027]
認知科学の研究は、理解が高品質なチャット会話に不可欠なシグナルであることを示唆している。
そこで我々は,P2 Botを提案する。このP2 Botは,理解を明示的にモデル化することを目的とした送信機受信者ベースのフレームワークである。
論文 参考訳(メタデータ) (2020-04-11T12:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。