論文の概要: Don't Forget Your ABC's: Evaluating the State-of-the-Art in
Chat-Oriented Dialogue Systems
- arxiv url: http://arxiv.org/abs/2212.09180v3
- Date: Fri, 28 Jul 2023 20:55:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 00:07:20.471971
- Title: Don't Forget Your ABC's: Evaluating the State-of-the-Art in
Chat-Oriented Dialogue Systems
- Title(参考訳): abcを忘れるな:チャット指向対話システムにおける最先端の評価
- Authors: Sarah E. Finch, James D. Finch, and Jinho D. Choi
- Abstract要約: 本稿では,対話システムの挙動を推定する新しい人的評価手法を提案する。
提案手法は,4つの最先端なオープンドメイン対話システムの評価と既存手法との比較に用いられている。
- 参考スコア(独自算出の注目度): 12.914512702731528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite tremendous advancements in dialogue systems, stable evaluation still
requires human judgments producing notoriously high-variance metrics due to
their inherent subjectivity. Moreover, methods and labels in dialogue
evaluation are not fully standardized, especially for open-domain chats, with a
lack of work to compare and assess the validity of those approaches. The use of
inconsistent evaluation can misinform the performance of a dialogue system,
which becomes a major hurdle to enhance it. Thus, a dimensional evaluation of
chat-oriented open-domain dialogue systems that reliably measures several
aspects of dialogue capabilities is desired. This paper presents a novel human
evaluation method to estimate the rates of many dialogue system behaviors. Our
method is used to evaluate four state-of-the-art open-domain dialogue systems
and compared with existing approaches. The analysis demonstrates that our
behavior method is more suitable than alternative Likert-style or comparative
approaches for dimensional evaluation of these systems.
- Abstract(参考訳): 対話システムの飛躍的な進歩にもかかわらず、安定した評価には人間の判断が必要である。
さらに、対話評価における手法やラベルは、特にオープンドメインチャットにおいて完全に標準化されておらず、それらのアプローチの妥当性を比較し評価する作業が不足している。
不整合評価の使用は、対話システムの性能を誤認し、それを強化するための大きなハードルとなる。
そこで,対話機能の複数の側面を確実に測定するチャット指向オープンドメイン対話システムの次元評価が望まれる。
本稿では,対話システム行動の頻度を推定する新しい人間評価手法を提案する。
本手法は,4つの最先端オープンドメイン対話システムを評価し,既存のアプローチと比較する。
解析の結果, 提案手法は, 従来のlikert方式や, 次元評価のための比較手法よりも適していることがわかった。
関連論文リスト
- PairEval: Open-domain Dialogue Evaluation with Pairwise Comparison [38.03304773600225]
PairEvalは、異なる会話における応答と品質を比較して応答を評価するための、新しい対話評価指標である。
PairEvalは基準値よりも人間の判断と高い相関を示すことを示す。
また,提案手法は,オープンドメイン対話システムからの共通障害の検出において,より堅牢であることがわかった。
論文 参考訳(メタデータ) (2024-04-01T09:35:06Z) - Bipartite-play Dialogue Collection for Practical Automatic Evaluation of
Dialogue Systems [17.532851422548354]
本稿では,対話システム評価を自動化する対話収集手法であるバイパート・プレイ法を提案する。
既存の対話収集手法の限界に対処する。
実験結果から,バイパートリープレイ方式による自動評価は,これらの2つの欠点を軽減できることがわかった。
論文 参考訳(メタデータ) (2022-11-19T06:12:50Z) - Dialogue Evaluation with Offline Reinforcement Learning [2.580163308334609]
タスク指向対話システムは,自然言語対話によるユーザ目標達成を目的としている。
これらは、開発フェーズのすべてのイテレーションで達成不可能な、人間のユーザによって理想的に評価されます。
静的コーパスに基づく対話評価のためのオフライン強化学習を提案する。
論文 参考訳(メタデータ) (2022-09-02T08:32:52Z) - User Response and Sentiment Prediction for Automatic Dialogue Evaluation [69.11124655437902]
本稿では,次のユーザ発話の感情をターンレベル評価やダイアログレベル評価に利用することを提案する。
実験により,本モデルによる音声対話データセットと音声対話データセットの両方において,既存の自動評価指標よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-11-16T22:19:17Z) - DynaEval: Unifying Turn and Dialogue Level Evaluation [60.66883575106898]
統合された自動評価フレームワークDynaEvalを提案する。
ターンレベルの評価を行うことができるが、対話全体の品質を公平に考慮することもできる。
実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-06-02T12:23:18Z) - Assessing Dialogue Systems with Distribution Distances [48.61159795472962]
そこで本研究では,対話と実世界の会話の分散的距離を計算し,対話システムの性能を計測する。
複数の対話コーパスを用いた実験により,提案手法は既存の指標よりも人間の判断によく相関することが示された。
論文 参考訳(メタデータ) (2021-05-06T10:30:13Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Towards Unified Dialogue System Evaluation: A Comprehensive Analysis of
Current Evaluation Protocols [17.14709845342071]
現状では、チャット指向対話管理システムを評価するための様々な評価プロトコルが提案されている。
本稿では,対話システムにおける自動評価手法と人的評価手法の総合的な合成について述べる。
論文 参考訳(メタデータ) (2020-06-10T23:29:05Z) - Rethinking Dialogue State Tracking with Reasoning [76.0991910623001]
本稿では, 対話状態の段階的追跡を, バックエンドデータの助けを借りて行うことを提案する。
実験の結果,MultiWOZ 2.1の連立信条精度は38.6%向上した。
論文 参考訳(メタデータ) (2020-05-27T02:05:33Z) - Is Your Goal-Oriented Dialog Model Performing Really Well? Empirical
Analysis of System-wise Evaluation [114.48767388174218]
本稿では,異なる設定の異なるモジュールから構成される異なるダイアログシステムについて,実験的検討を行った。
この結果から, 粗粒度ラベルで学習した連系や終端モデルを用いたシステムよりも, 細粒度監視信号を用いて訓練したパイプラインダイアログシステムの方が, 高い性能が得られることが示唆された。
論文 参考訳(メタデータ) (2020-05-15T05:20:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。