論文の概要: Don't Forget Your ABC's: Evaluating the State-of-the-Art in
Chat-Oriented Dialogue Systems
- arxiv url: http://arxiv.org/abs/2212.09180v1
- Date: Sun, 18 Dec 2022 22:07:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 16:30:34.237574
- Title: Don't Forget Your ABC's: Evaluating the State-of-the-Art in
Chat-Oriented Dialogue Systems
- Title(参考訳): abcを忘れるな:チャット指向対話システムにおける最先端の評価
- Authors: Sarah E. Finch, James D. Finch, and Jinho D. Choi
- Abstract要約: 人間のコンピュータチャットの次元的評価は、チャット品質のいくつかの異なる側面を確実に測定することができる。
提案手法は, 従来のチャット方式よりも, チャットの次元評価に適していることを示す。
次に、検証された方法と既存の方法を用いて、最近の文献から4つのオープンドメインチャットモデルを評価する。
- 参考スコア(独自算出の注目度): 12.914512702731528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been great recent advancement in human-computer chat. However,
proper evaluation currently requires human judgements that produce notoriously
high-variance metrics due to their inherent subjectivity. Furthermore, there is
little standardization in the methods and labels used for evaluation, with an
overall lack of work to compare and assess the validity of various evaluation
approaches. As a consequence, existing evaluation results likely leave an
incomplete picture of the strengths and weaknesses of open-domain chatbots. We
aim towards a dimensional evaluation of human-computer chat that can reliably
measure several distinct aspects of chat quality. To this end, we present our
novel human evaluation method that quantifies the rate of several
quality-related chatbot behaviors. Our results demonstrate our method to be
more suitable for dimensional chat evaluation than alternative likert-style or
comparative methods. We then use our validated method and existing methods to
evaluate four open-domain chat models from the recent literature.
- Abstract(参考訳): 近年、人間とコンピュータのチャットが進歩している。
しかし、現在の適切な評価には、本質的な主観性から高い分散度を生じる悪名高い人間の判断が必要である。
さらに,評価に使用する手法やラベルにはほとんど標準化がなく,様々な評価手法の有効性を比較し評価する作業が全般的に不足している。
その結果、既存の評価結果は、オープンドメインチャットボットの長所と短所を不完全なままにしている可能性が高い。
我々は,チャット品質の異なる複数の側面を確実に測定できるヒューマンコンピュータチャットの次元評価を目指している。
そこで本研究では,複数の品質関連チャットボットの動作を定量化する新しい評価手法を提案する。
本手法は,likert方式や比較手法よりも,次元的チャット評価に適していることを示す。
検証済みの方法と既存の方法を用いて、最近の文献から4つのオープンドメインチャットモデルを評価する。
関連論文リスト
- PairEval: Open-domain Dialogue Evaluation with Pairwise Comparison [38.03304773600225]
PairEvalは、異なる会話における応答と品質を比較して応答を評価するための、新しい対話評価指標である。
PairEvalは基準値よりも人間の判断と高い相関を示すことを示す。
また,提案手法は,オープンドメイン対話システムからの共通障害の検出において,より堅牢であることがわかった。
論文 参考訳(メタデータ) (2024-04-01T09:35:06Z) - Bipartite-play Dialogue Collection for Practical Automatic Evaluation of
Dialogue Systems [17.532851422548354]
本稿では,対話システム評価を自動化する対話収集手法であるバイパート・プレイ法を提案する。
既存の対話収集手法の限界に対処する。
実験結果から,バイパートリープレイ方式による自動評価は,これらの2つの欠点を軽減できることがわかった。
論文 参考訳(メタデータ) (2022-11-19T06:12:50Z) - Dialogue Evaluation with Offline Reinforcement Learning [2.580163308334609]
タスク指向対話システムは,自然言語対話によるユーザ目標達成を目的としている。
これらは、開発フェーズのすべてのイテレーションで達成不可能な、人間のユーザによって理想的に評価されます。
静的コーパスに基づく対話評価のためのオフライン強化学習を提案する。
論文 参考訳(メタデータ) (2022-09-02T08:32:52Z) - User Response and Sentiment Prediction for Automatic Dialogue Evaluation [69.11124655437902]
本稿では,次のユーザ発話の感情をターンレベル評価やダイアログレベル評価に利用することを提案する。
実験により,本モデルによる音声対話データセットと音声対話データセットの両方において,既存の自動評価指標よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-11-16T22:19:17Z) - DynaEval: Unifying Turn and Dialogue Level Evaluation [60.66883575106898]
統合された自動評価フレームワークDynaEvalを提案する。
ターンレベルの評価を行うことができるが、対話全体の品質を公平に考慮することもできる。
実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-06-02T12:23:18Z) - Assessing Dialogue Systems with Distribution Distances [48.61159795472962]
そこで本研究では,対話と実世界の会話の分散的距離を計算し,対話システムの性能を計測する。
複数の対話コーパスを用いた実験により,提案手法は既存の指標よりも人間の判断によく相関することが示された。
論文 参考訳(メタデータ) (2021-05-06T10:30:13Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Towards Unified Dialogue System Evaluation: A Comprehensive Analysis of
Current Evaluation Protocols [17.14709845342071]
現状では、チャット指向対話管理システムを評価するための様々な評価プロトコルが提案されている。
本稿では,対話システムにおける自動評価手法と人的評価手法の総合的な合成について述べる。
論文 参考訳(メタデータ) (2020-06-10T23:29:05Z) - Rethinking Dialogue State Tracking with Reasoning [76.0991910623001]
本稿では, 対話状態の段階的追跡を, バックエンドデータの助けを借りて行うことを提案する。
実験の結果,MultiWOZ 2.1の連立信条精度は38.6%向上した。
論文 参考訳(メタデータ) (2020-05-27T02:05:33Z) - Is Your Goal-Oriented Dialog Model Performing Really Well? Empirical
Analysis of System-wise Evaluation [114.48767388174218]
本稿では,異なる設定の異なるモジュールから構成される異なるダイアログシステムについて,実験的検討を行った。
この結果から, 粗粒度ラベルで学習した連系や終端モデルを用いたシステムよりも, 細粒度監視信号を用いて訓練したパイプラインダイアログシステムの方が, 高い性能が得られることが示唆された。
論文 参考訳(メタデータ) (2020-05-15T05:20:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。