論文の概要: Psychological Metrics for Dialog System Evaluation
- arxiv url: http://arxiv.org/abs/2305.14757v2
- Date: Sat, 16 Sep 2023 02:35:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 23:37:23.707299
- Title: Psychological Metrics for Dialog System Evaluation
- Title(参考訳): 対話システム評価のための心理的指標
- Authors: Salvatore Giorgi, Shreya Havaldar, Farhan Ahmed, Zuhaib Akhtar,
Shalaka Vaidya, Gary Pan, Lyle H. Ungar, H. Andrew Schwartz, Joao Sedoc
- Abstract要約: 我々は,人間コミュニケーションと人間関係の基礎となる,確立された心理学から解釈可能な5つの指標を提示する。
心理学的メトリクスは、7つの最先端の伝統的なメトリクスと比較される。
- 参考スコア(独自算出の注目度): 16.16116910201279
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present metrics for evaluating dialog systems through a
psychologically-grounded "human" lens in which conversational agents express a
diversity of both states (e.g., emotion) and traits (e.g., personality), just
as people do. We present five interpretable metrics from established psychology
that are fundamental to human communication and relationships: emotional
entropy, linguistic style and emotion matching, agreeableness, and empathy.
These metrics can be applied (1) across dialogs and (2) on turns within
dialogs. The psychological metrics are compared against seven state-of-the-art
traditional metrics (e.g., BARTScore and BLEURT) on seven standard dialog
system data sets. We also introduce a novel data set, the Three Bot Dialog
Evaluation Corpus, which consists of annotated conversations from ChatGPT,
GPT-3, and BlenderBot. We demonstrate that our proposed metrics offer novel
information; they are uncorrelated with traditional metrics, can be used to
meaningfully compare dialog systems, and lead to increased accuracy (beyond
existing traditional metrics) in predicting crowd-sourced dialog judgements.
The interpretability and unique signal of our psychological metrics make them a
valuable tool for evaluating and improving dialog systems.
- Abstract(参考訳): 対話システムを評価するための指標として,対話エージェントが感情(感情)と人格(人格)の両状態の多様性を,人間と同じように表現する「人間」レンズを提案する。
我々は,人間のコミュニケーションや人間関係の基本となる確立された心理学から,感情のエントロピー,言語的スタイル,感情のマッチング,同意性,共感の5つの解釈可能な指標を提示する。
これらのメトリクスは(1)ダイアログをまたいで、(2)ダイアログ内でターンで適用することができる。
心理学メトリクスは、7つの標準ダイアログシステムデータセット上の7つの最先端の伝統的なメトリクス(例えばBARTScoreとBLEURT)と比較される。
また,ChatGPT,GPT-3,BlenderBotの注釈付き会話からなる新しいデータセットであるThree Bot Dialog Evaluation Corpusを導入する。
提案手法は,従来のメトリクスとは無関係であり,対話システムと有意義に比較することが可能であり,クラウドソースによる対話判断の精度向上(既存のメトリクス以外の)につながることを実証する。
心理的指標の解釈可能性とユニークなシグナルは、対話システムの評価と改善に有用なツールとなります。
関連論文リスト
- ComperDial: Commonsense Persona-grounded Dialogue Dataset and Benchmark [26.100299485985197]
ComperDialは、99の対話エージェントから収集された1,485の会話において、10,395の対話ターンのための人間による応答で構成されている。
シングルターン応答スコアに加えて、ComperDialには対話レベルの人間注釈スコアも含まれている。
ComperDialから構築した新しい自動評価尺度は、人間の会話に対するモデル生成対話の一般的な類似度を測定する。
論文 参考訳(メタデータ) (2024-06-17T05:51:04Z) - User Response and Sentiment Prediction for Automatic Dialogue Evaluation [69.11124655437902]
本稿では,次のユーザ発話の感情をターンレベル評価やダイアログレベル評価に利用することを提案する。
実験により,本モデルによる音声対話データセットと音声対話データセットの両方において,既存の自動評価指標よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-11-16T22:19:17Z) - Modeling Performance in Open-Domain Dialogue with PARADISE [7.516971632888974]
本研究では,実際のユーザと数千の会話に参加した対話システムであるAthenaの性能を予測するためのPARADISEモデルを開発した。
私たちのゴールは、任意のAlexa Prizeシステムの対話選択をリアルタイムで最適化するために使用できる汎用関数を学習することです。
論文 参考訳(メタデータ) (2021-10-21T14:17:59Z) - We've had this conversation before: A Novel Approach to Measuring Dialog
Similarity [9.218829323265371]
ダイアログ類似性のシナリオに対する編集距離距離の新たな適応法を提案する。
提案手法は,発話意味論,会話の流れ,参加者など,さまざまな会話の側面を考慮に入れている。
論文 参考訳(メタデータ) (2021-10-12T07:24:12Z) - A Comprehensive Assessment of Dialog Evaluation Metrics [9.34612743192798]
標準言語評価指標は、ダイアログを評価するのに有効ではない。
近年の研究では、人間の判断とよく相関する、対話特有の新しい指標がいくつか提案されている。
本稿では,最近提案された対話評価指標を包括的に評価する。
論文 参考訳(メタデータ) (2021-06-07T15:17:03Z) - Assessing Dialogue Systems with Distribution Distances [48.61159795472962]
そこで本研究では,対話と実世界の会話の分散的距離を計算し,対話システムの性能を計測する。
複数の対話コーパスを用いた実験により,提案手法は既存の指標よりも人間の判断によく相関することが示された。
論文 参考訳(メタデータ) (2021-05-06T10:30:13Z) - GRADE: Automatic Graph-Enhanced Coherence Metric for Evaluating
Open-Domain Dialogue Systems [133.13117064357425]
自動対話評価のためのグラフ強調表現のための新しい評価指標GRADEを提案する。
具体的には、対話コヒーレンスを評価するために、粗粒度発話レベルの文脈化表現と細粒度トピックレベルのグラフ表現の両方を組み込んでいる。
実験の結果,GRADEは多様な対話モデルの測定において,他の最先端の指標よりも優れていた。
論文 参考訳(メタデータ) (2020-10-08T14:07:32Z) - Rethinking Dialogue State Tracking with Reasoning [76.0991910623001]
本稿では, 対話状態の段階的追跡を, バックエンドデータの助けを借りて行うことを提案する。
実験の結果,MultiWOZ 2.1の連立信条精度は38.6%向上した。
論文 参考訳(メタデータ) (2020-05-27T02:05:33Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z) - You Impress Me: Dialogue Generation via Mutual Persona Perception [62.89449096369027]
認知科学の研究は、理解が高品質なチャット会話に不可欠なシグナルであることを示唆している。
そこで我々は,P2 Botを提案する。このP2 Botは,理解を明示的にモデル化することを目的とした送信機受信者ベースのフレームワークである。
論文 参考訳(メタデータ) (2020-04-11T12:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。