論文の概要: Human-Centered Metrics for Dialog System Evaluation
- arxiv url: http://arxiv.org/abs/2305.14757v1
- Date: Wed, 24 May 2023 06:02:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 19:21:11.162374
- Title: Human-Centered Metrics for Dialog System Evaluation
- Title(参考訳): 対話システム評価のための人間中心メトリクス
- Authors: Salvatore Giorgi, Shreya Havaldar, Farhan Ahmed, Zuhaib Akhtar,
Shalaka Vaidya, Gary Pan, Lyle H. Ungar, H. Andrew Schwartz, Joao Sedoc
- Abstract要約: 心理的な「人間」レンズを用いて対話システムを評価するための指標を提示する。
これらの指標を、7つの標準ダイアログシステムデータセット上の6つの最先端自動メトリクスと比較する。
提案手法は,新規な情報を提供し,自動メトリクスとは無関係であり,クラウドソースによるダイアログ判定を予測するための既存の自動メトリクスを超えた精度の向上につながることを実証する。
- 参考スコア(独自算出の注目度): 10.39791072024805
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present metrics for evaluating dialog systems through a
psychologically-grounded "human" lens: conversational agents express a
diversity of both states (short-term factors like emotions) and traits
(longer-term factors like personality) just as people do. These interpretable
metrics consist of five measures from established psychology constructs that
can be applied both across dialogs and on turns within dialogs: emotional
entropy, linguistic style and emotion matching, as well as agreeableness and
empathy. We compare these human metrics against 6 state-of-the-art automatic
metrics (e.g. BARTScore and BLEURT) on 7 standard dialog system data sets. We
also introduce a novel data set, the Three Bot Dialog Evaluation Corpus, which
consists of annotated conversations from ChatGPT, GPT-3, and BlenderBot. We
demonstrate the proposed human metrics offer novel information, are
uncorrelated with automatic metrics, and lead to increased accuracy beyond
existing automatic metrics for predicting crowd-sourced dialog judgements. The
interpretability and unique signal of our proposed human-centered framework
make it a valuable tool for evaluating and improving dialog systems.
- Abstract(参考訳): 会話エージェントは、人間と同じように、両方の状態(感情のような短期的要因)と特性(人格のような長期的要因)の多様性を表現する。
これらの解釈可能な指標は、確立された心理学的構成から得られた5つの尺度からなり、対話の中で、感情エントロピー、言語的スタイル、感情のマッチング、および一致性と共感の両方に適用することができる。
これらの指標を、7つの標準ダイアログシステムデータセット上の6つの最先端自動メトリクス(BARTScoreやBLEURTなど)と比較する。
また,ChatGPT,GPT-3,BlenderBotの注釈付き会話からなる新しいデータセットであるThree Bot Dialog Evaluation Corpusを導入する。
提案手法は,新規な情報を提供し,自動メトリクスとは無関係であり,クラウドソースによるダイアログ判定を予測するための既存の自動メトリクスを超えた精度の向上につながることを実証する。
提案する人間中心フレームワークの解釈可能性とユニークな信号は,対話システムの評価と改善に有用なツールである。
関連論文リスト
- ComperDial: Commonsense Persona-grounded Dialogue Dataset and Benchmark [26.100299485985197]
ComperDialは、99の対話エージェントから収集された1,485の会話において、10,395の対話ターンのための人間による応答で構成されている。
シングルターン応答スコアに加えて、ComperDialには対話レベルの人間注釈スコアも含まれている。
ComperDialから構築した新しい自動評価尺度は、人間の会話に対するモデル生成対話の一般的な類似度を測定する。
論文 参考訳(メタデータ) (2024-06-17T05:51:04Z) - User Response and Sentiment Prediction for Automatic Dialogue Evaluation [69.11124655437902]
本稿では,次のユーザ発話の感情をターンレベル評価やダイアログレベル評価に利用することを提案する。
実験により,本モデルによる音声対話データセットと音声対話データセットの両方において,既存の自動評価指標よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-11-16T22:19:17Z) - Modeling Performance in Open-Domain Dialogue with PARADISE [7.516971632888974]
本研究では,実際のユーザと数千の会話に参加した対話システムであるAthenaの性能を予測するためのPARADISEモデルを開発した。
私たちのゴールは、任意のAlexa Prizeシステムの対話選択をリアルタイムで最適化するために使用できる汎用関数を学習することです。
論文 参考訳(メタデータ) (2021-10-21T14:17:59Z) - We've had this conversation before: A Novel Approach to Measuring Dialog
Similarity [9.218829323265371]
ダイアログ類似性のシナリオに対する編集距離距離の新たな適応法を提案する。
提案手法は,発話意味論,会話の流れ,参加者など,さまざまな会話の側面を考慮に入れている。
論文 参考訳(メタデータ) (2021-10-12T07:24:12Z) - A Comprehensive Assessment of Dialog Evaluation Metrics [9.34612743192798]
標準言語評価指標は、ダイアログを評価するのに有効ではない。
近年の研究では、人間の判断とよく相関する、対話特有の新しい指標がいくつか提案されている。
本稿では,最近提案された対話評価指標を包括的に評価する。
論文 参考訳(メタデータ) (2021-06-07T15:17:03Z) - Assessing Dialogue Systems with Distribution Distances [48.61159795472962]
そこで本研究では,対話と実世界の会話の分散的距離を計算し,対話システムの性能を計測する。
複数の対話コーパスを用いた実験により,提案手法は既存の指標よりも人間の判断によく相関することが示された。
論文 参考訳(メタデータ) (2021-05-06T10:30:13Z) - GRADE: Automatic Graph-Enhanced Coherence Metric for Evaluating
Open-Domain Dialogue Systems [133.13117064357425]
自動対話評価のためのグラフ強調表現のための新しい評価指標GRADEを提案する。
具体的には、対話コヒーレンスを評価するために、粗粒度発話レベルの文脈化表現と細粒度トピックレベルのグラフ表現の両方を組み込んでいる。
実験の結果,GRADEは多様な対話モデルの測定において,他の最先端の指標よりも優れていた。
論文 参考訳(メタデータ) (2020-10-08T14:07:32Z) - Rethinking Dialogue State Tracking with Reasoning [76.0991910623001]
本稿では, 対話状態の段階的追跡を, バックエンドデータの助けを借りて行うことを提案する。
実験の結果,MultiWOZ 2.1の連立信条精度は38.6%向上した。
論文 参考訳(メタデータ) (2020-05-27T02:05:33Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z) - You Impress Me: Dialogue Generation via Mutual Persona Perception [62.89449096369027]
認知科学の研究は、理解が高品質なチャット会話に不可欠なシグナルであることを示唆している。
そこで我々は,P2 Botを提案する。このP2 Botは,理解を明示的にモデル化することを目的とした送信機受信者ベースのフレームワークである。
論文 参考訳(メタデータ) (2020-04-11T12:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。