論文の概要: Multi-dimensional Evaluation of Empathetic Dialog Responses
- arxiv url: http://arxiv.org/abs/2402.11409v1
- Date: Sun, 18 Feb 2024 00:32:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 21:36:27.798502
- Title: Multi-dimensional Evaluation of Empathetic Dialog Responses
- Title(参考訳): 共感的対話応答の多次元評価
- Authors: Zhichao Xu, Jiepu Jiang
- Abstract要約: 話者の視点から表現された意図と聴取者の視点から認識された共感の両方を測定するための多次元共感評価フレームワークを提案する。
内部の顧客サービス対話の分析に提案されたフレームワークを適用すると、2つの次元が相互接続されていることがわかる。
- 参考スコア(独自算出の注目度): 5.411825323689905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Empathy is a critical element of effective and satisfactory conversational
communication, yet previous studies in measuring conversational empathy mostly
focus on expressed communicative intents -- in which way empathy is expressed,
ignoring the fact that conversation is also a collaborative practice involving
both speakers and listeners. In contrast, we propose a multi-dimensional
empathy evaluation framework that extends upon existing work to measure both
expressed intents from the speaker's perspective and perceived empathy from the
listener's perspective. Applying the proposed framework to analyzing our
internal customer-service dialogue shows that the two dimensions (expressed
intent types and perceived empathy) are inter-connected, while perceived
empathy has high correlation with the satisfactory level of dialogue sessions.
This proposed framework still requires subjective assessments from trained
annotators, which can be non-trivial to collect. To scale up evaluation without
excessive reliance on carefully annotated data, we explore different modeling
options to automatically measure conversational empathy with (1) prompting
frozen large language models (LLMs) and (2) training language model-based
classifiers. Extensive experiments on both internal and external dialogue
datasets show that measuring conversational empathy remains a challenging task
for prompting frozen LLMs, reflected by less satisfying performance of GPT-4
and Flan family models. On the other hand, our proposed instruction-finetuned
classifiers based on sequence-to-sequence (Seq2Seq) language models is able to
achieve the best performance compared to prior works and competitive baselines.
Finally, we perform comprehensive ablation studies on the performance of
proposed instruction-finetuned classifiers and give recommendations on
potentially adopting them as automatic conversational empathy evaluation
metrics.
- Abstract(参考訳): 共感は効果的な会話コミュニケーションの重要な要素であるが、会話の共感を測定する以前の研究は、主に表現されたコミュニケーションの意図に焦点を当てている。
対照的に,話者の視点から表現された意図と聞き手の視点から知覚された共感の両方を測定するために,既存の作業を拡張する多次元共感評価フレームワークを提案する。
提案手法を適用して顧客・サービス対話の分析を行ったところ,2次元(表現意図型と知覚共感)は相互に関連しており,共感感は対話セッションの満足度と高い相関関係にあることがわかった。
このフレームワークでは、トレーニングされたアノテータからの主観的な評価が必要である。
そこで我々は,(1)凍結した大言語モデル(LLM)と(2)学習言語モデルに基づく分類器を用いて,対話的共感を自動的に計測する様々なモデリングオプションについて検討した。
GPT-4およびFlanファミリーモデルの性能の低下を反映して、内部および外部の対話データセットの広範な実験により、会話の共感を測定することは、凍結LDMの促進に依然として困難な課題であることが示された。
一方,sequence-to-sequence (seq2seq) 言語モデルに基づく提案手法は,先行研究や競合ベースラインと比較して最高の性能を実現することができる。
最後に,提案する命令精細分類器の性能に関する包括的アブレーション研究を行い,自動会話共感評価指標として採用する可能性について推奨する。
関連論文リスト
- An Analysis of User Behaviors for Objectively Evaluating Spoken Dialogue
Systems [26.003947740875482]
ソーシャル対話タスクにおけるユーザ行動と主観的評価スコアの関係について検討する。
その結果, ユーザの発話が主である対話作業においては, 聞き取りや面接など, 発話数や単語数などの指標が重要な役割を担っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-01-10T01:02:26Z) - FCC: Fusing Conversation History and Candidate Provenance for Contextual
Response Ranking in Dialogue Systems [53.89014188309486]
複数のチャネルからコンテキスト情報を統合できるフレキシブルなニューラルネットワークフレームワークを提案する。
会話応答ランキングタスクの評価に広く用いられているMSDialogデータセット上で,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-03-31T23:58:28Z) - deep learning of segment-level feature representation for speech emotion
recognition in conversations [9.432208348863336]
そこで本稿では,意図的文脈依存と話者感応的相互作用をキャプチャする対話型音声感情認識手法を提案する。
まず、事前訓練されたVGGishモデルを用いて、個々の発話におけるセグメントベース音声表現を抽出する。
第2に、注意的双方向リカレントユニット(GRU)は、文脈に敏感な情報をモデル化し、話者内および話者間依存関係を共同で探索する。
論文 参考訳(メタデータ) (2023-02-05T16:15:46Z) - Learning to Memorize Entailment and Discourse Relations for
Persona-Consistent Dialogues [8.652711997920463]
既存の作業は、高度ネットワーク構造を持つ対話者ペルソナを意図的に学習することで、対話システムの性能を改善した。
本研究は,ペルソナ一貫性のある対話課題における係り受け関係と談話関係を記憶する学習方法を提案する。
論文 参考訳(メタデータ) (2023-01-12T08:37:00Z) - DynaEval: Unifying Turn and Dialogue Level Evaluation [60.66883575106898]
統合された自動評価フレームワークDynaEvalを提案する。
ターンレベルの評価を行うことができるが、対話全体の品質を公平に考慮することもできる。
実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-06-02T12:23:18Z) - Dialogue History Matters! Personalized Response Selectionin Multi-turn
Retrieval-based Chatbots [62.295373408415365]
本稿では,コンテキスト応答マッチングのためのパーソナライズドハイブリッドマッチングネットワーク(phmn)を提案する。
1) ユーザ固有の対話履歴からパーソナライズされた発話行動を付加的なマッチング情報として抽出する。
ユーザ識別による2つの大規模データセット,すなわちパーソナライズされた対話 Corpus Ubuntu (P-Ubuntu) とパーソナライズされたWeiboデータセット (P-Weibo) のモデルを評価する。
論文 参考訳(メタデータ) (2021-03-17T09:42:11Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z) - Dialogue-Based Relation Extraction [53.2896545819799]
本稿では,人間による対話型関係抽出(RE)データセットDialogREを提案する。
我々は,対話型タスクと従来のREタスクの類似点と相違点の分析に基づいて,提案課題において話者関連情報が重要な役割を担っていると論じる。
実験結果から,ベストパフォーマンスモデルにおける話者認識の拡張が,標準設定と会話評価設定の両方において向上することが示された。
論文 参考訳(メタデータ) (2020-04-17T03:51:57Z) - You Impress Me: Dialogue Generation via Mutual Persona Perception [62.89449096369027]
認知科学の研究は、理解が高品質なチャット会話に不可欠なシグナルであることを示唆している。
そこで我々は,P2 Botを提案する。このP2 Botは,理解を明示的にモデル化することを目的とした送信機受信者ベースのフレームワークである。
論文 参考訳(メタデータ) (2020-04-11T12:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。