論文の概要: Towards a Multidimensional Evaluation Framework for Empathetic Conversational Systems
- arxiv url: http://arxiv.org/abs/2407.18538v1
- Date: Fri, 26 Jul 2024 06:34:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 14:10:09.977547
- Title: Towards a Multidimensional Evaluation Framework for Empathetic Conversational Systems
- Title(参考訳): 共感型会話システムのための多次元評価フレームワークの実現に向けて
- Authors: Aravind Sesagiri Raamkumar, Siyuan Brandon Loh,
- Abstract要約: 共感的会話システム(ECS)は、アプリケーションドメインに関係なく、ユーザの感情や感情に共感的に反応するように構築されている。
これらの方法は、会話における共感の実際の品質を測定するのに不十分である。
本研究では,3次元の共感関係次元を用いた3つの構造レベルでの共感測定手法,2次元の共感行動型を用いた行動レベル,および3次元の共感語彙を用いた全体レベルを用いた多次元共感評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.7205106391379026
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Empathetic Conversational Systems (ECS) are built to respond empathetically to the user's emotions and sentiments, regardless of the application domain. Current ECS studies evaluation approaches are restricted to offline evaluation experiments primarily for gold standard comparison & benchmarking, and user evaluation studies for collecting human ratings on specific constructs. These methods are inadequate in measuring the actual quality of empathy in conversations. In this paper, we propose a multidimensional empathy evaluation framework with three new methods for measuring empathy at (i) structural level using three empathy-related dimensions, (ii) behavioral level using empathy behavioral types, and (iii) overall level using an empathy lexicon, thereby fortifying the evaluation process. Experiments were conducted with the state-of-the-art ECS models and large language models (LLMs) to show the framework's usefulness.
- Abstract(参考訳): 共感的会話システム(ECS)は、アプリケーションドメインに関係なく、ユーザの感情や感情に共感的に反応するように構築されている。
現在のECS評価手法は、主に金標準比較とベンチマークのためのオフライン評価実験と、特定の構成物に対する人間の評価収集のためのユーザ評価研究に限られている。
これらの方法は、会話における共感の実際の品質を測定するのに不十分である。
本稿では,共感を計測する3つの新しい手法を用いた多次元共感評価フレームワークを提案する。
(i)3つの共感関係次元を用いた構造レベル
(二)共感行動型を用いた行動レベル、及び
三 共感レキシコンを用いて総合的に評価し、その結果、評価過程を固める。
フレームワークの有用性を示すため、最先端のECSモデルと大規模言語モデル(LLM)を用いて実験を行った。
関連論文リスト
- Quantitative Assessment of Intersectional Empathetic Bias and Understanding [0.0]
多くの文献が、構成のゆるい定義に基づいて現在の共感の運用について批判している。
本稿では,その心理的起源に近い共感を運用する共感評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-08T18:43:15Z) - Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - Multi-dimensional Evaluation of Empathetic Dialog Responses [4.580983642743026]
話者の視点から表現された意図と聴取者の視点から認識された共感の両方を測定するための多次元共感評価フレームワークを提案する。
両次元が相互接続されているのに対して,共感は対話満足度と高い相関関係にあることがわかった。
論文 参考訳(メタデータ) (2024-02-18T00:32:33Z) - EMP-EVAL: A Framework for Measuring Empathy in Open Domain Dialogues [0.0]
EMP-EVALは単純だが効果的な自動共感評価法である。
提案手法は感情,認知,情緒的共感の影響を受ける。
我々の測定値が人間の嗜好と相関し、人間の判断と同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2023-01-29T18:42:19Z) - Evaluating Human-Language Model Interaction [79.33022878034627]
我々は,対話型システムのコンポーネントを定義する,HALIE(Human-AI Language-based Interaction Evaluation)という新しいフレームワークを開発した。
ソーシャル対話,質問応答,クロスワードパズル,要約,メタファ生成という,対話のさまざまな形態をカバーする5つのタスクを設計する。
より優れた非対話的性能は、必ずしもより良い人間とLMの相互作用に必ずしも変換されない。
論文 参考訳(メタデータ) (2022-12-19T18:59:45Z) - FineD-Eval: Fine-grained Automatic Dialogue-Level Evaluation [58.46761798403072]
本稿では,3つのサブメトリックから構成され,それぞれが特定の次元を対象とする対話レベルメトリクスを提案する。
サブメトリックは、新しい自己監督目的で訓練され、それぞれの次元について人間の判断と強い相関関係を示す。
既存の最先端のメトリクスと比較すると、組み合わせたメトリクスは平均して16%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2022-10-25T08:26:03Z) - Social Biases in Automatic Evaluation Metrics for NLG [53.76118154594404]
本稿では,単語埋め込みアソシエーションテスト(WEAT)と文埋め込みアソシエーションテスト(SEAT)に基づく評価手法を提案する。
我々は、画像キャプションやテキスト要約タスクにおける性別バイアスの影響を調査するために、性別対応メタ評価データセットを構築した。
論文 参考訳(メタデータ) (2022-10-17T08:55:26Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - PONE: A Novel Automatic Evaluation Metric for Open-Domain Generative
Dialogue Systems [48.99561874529323]
オープンドメイン生成対話システムの評価には3つの方法がある。
体系的な比較が欠如しているため、どの指標がより効果的であるかは明らかでない。
本稿では,人間の判断との相関性を大幅に改善できる,新しい,実現可能な学習基準を提案する。
論文 参考訳(メタデータ) (2020-04-06T04:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。