論文の概要: Evaluating Task-oriented Dialogue Systems: A Systematic Review of Measures, Constructs and their Operationalisations
- arxiv url: http://arxiv.org/abs/2312.13871v2
- Date: Mon, 8 Apr 2024 07:36:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 01:46:19.024130
- Title: Evaluating Task-oriented Dialogue Systems: A Systematic Review of Measures, Constructs and their Operationalisations
- Title(参考訳): タスク指向対話システムの評価:尺度・構成・運用の体系的レビュー
- Authors: Anouck Braggaar, Christine Liebrecht, Emiel van Miltenburg, Emiel Krahmer,
- Abstract要約: このレビューは、以前の作業で使われた構成とメトリクスの概要を提供する。
また,対話システム評価の文脈における課題についても論じる。
対話システム評価の将来に向けた研究課題を策定する。
- 参考スコア(独自算出の注目度): 2.6122764214161363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This review gives an extensive overview of evaluation methods for task-oriented dialogue systems, paying special attention to practical applications of dialogue systems, for example for customer service. The review (1) provides an overview of the used constructs and metrics in previous work, (2) discusses challenges in the context of dialogue system evaluation and (3) develops a research agenda for the future of dialogue system evaluation. We conducted a systematic review of four databases (ACL, ACM, IEEE and Web of Science), which after screening resulted in 122 studies. Those studies were carefully analysed for the constructs and methods they proposed for evaluation. We found a wide variety in both constructs and methods. Especially the operationalisation is not always clearly reported. Newer developments concerning large language models are discussed in two contexts: to power dialogue systems and to use in the evaluation process. We hope that future work will take a more critical approach to the operationalisation and specification of the used constructs. To work towards this aim, this review ends with recommendations for evaluation and suggestions for outstanding questions.
- Abstract(参考訳): 本稿では,タスク指向対話システムの評価手法について概観し,顧客サービスなどの対話システムの実用化に特に注目する。
本報告では,(1)先行研究における使用済みコンストラクトとメトリクスの概要,(2)対話システム評価の文脈における課題,(3)対話システム評価の将来に向けた研究課題について概説する。
我々は,4つのデータベース (ACL, ACM, IEEE, Web of Science) の体系的レビューを行った。
これらの研究は、彼らが評価のために提案した構造と方法について慎重に分析された。
コンストラクトとメソッドの両方で多種多様なものを見つけました。
特に運用が必ずしも明確に報告されるとは限らない。
大規模言語モデルに関する新たな展開は,対話システムのパワーアップと評価プロセスにおける利用の2つの文脈で議論されている。
今後の作業が、使用済みのコンストラクトの運用と仕様に対して、より重要なアプローチを取ることを期待しています。
この目的を達成するために、このレビューは、優れた質問に対する評価と提案のレコメンデーションで終わる。
関連論文リスト
- FCC: Fusing Conversation History and Candidate Provenance for Contextual
Response Ranking in Dialogue Systems [53.89014188309486]
複数のチャネルからコンテキスト情報を統合できるフレキシブルなニューラルネットワークフレームワークを提案する。
会話応答ランキングタスクの評価に広く用いられているMSDialogデータセット上で,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-03-31T23:58:28Z) - Don't Forget Your ABC's: Evaluating the State-of-the-Art in
Chat-Oriented Dialogue Systems [12.914512702731528]
本稿では,対話システムの挙動を推定する新しい人的評価手法を提案する。
提案手法は,4つの最先端なオープンドメイン対話システムの評価と既存手法との比較に用いられている。
論文 参考訳(メタデータ) (2022-12-18T22:07:55Z) - User Satisfaction Estimation with Sequential Dialogue Act Modeling in
Goal-oriented Conversational Systems [65.88679683468143]
我々は,ユーザ満足度を予測するために,対話行動の逐次的ダイナミクスを取り入れた新しいフレームワーク,すなわちUSDAを提案する。
USDAは、ユーザの満足度を予測するために、コンテンツと行動機能の連続的な遷移を対話に取り入れている。
4つのベンチマーク目標指向対話データセットによる実験結果から,提案手法はUSEの既存手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-02-07T02:50:07Z) - How to Evaluate Your Dialogue Models: A Review of Approaches [2.7834038784275403]
まず,評価手法を3つのクラス,すなわち自動評価,人間関係評価,ユーザシミュレータによる評価に分割する。
また,対話手法の評価に適したベンチマークの存在についても詳細に論じている。
論文 参考訳(メタデータ) (2021-08-03T08:52:33Z) - Assessing Dialogue Systems with Distribution Distances [48.61159795472962]
そこで本研究では,対話と実世界の会話の分散的距離を計算し,対話システムの性能を計測する。
複数の対話コーパスを用いた実験により,提案手法は既存の指標よりも人間の判断によく相関することが示された。
論文 参考訳(メタデータ) (2021-05-06T10:30:13Z) - Evaluate On-the-job Learning Dialogue Systems and a Case Study for
Natural Language Understanding [3.557633666039596]
本研究は,実地学習対話システムを評価するための最初の一般的な手法を提案する。
タスク指向対話システムについて説明し,ユーザインタラクションを通じてジョブの自然言語コンポーネントを改善する。
論文 参考訳(メタデータ) (2021-02-26T16:54:16Z) - Modelling Hierarchical Structure between Dialogue Policy and Natural
Language Generator with Option Framework for Task-oriented Dialogue System [49.39150449455407]
HDNOは、特定の対話行為表現の設計を避けるために潜在対話行為を設計するためのオプションフレームワークである。
RL,LaRL,HDSAで学習した単語レベルE2Eモデルと比較して,マルチドメイン対話のデータセットであるMultiWoz 2.0とMultiWoz 2.1でHDNOをテストする。
論文 参考訳(メタデータ) (2020-06-11T20:55:28Z) - Towards Unified Dialogue System Evaluation: A Comprehensive Analysis of
Current Evaluation Protocols [17.14709845342071]
現状では、チャット指向対話管理システムを評価するための様々な評価プロトコルが提案されている。
本稿では,対話システムにおける自動評価手法と人的評価手法の総合的な合成について述べる。
論文 参考訳(メタデータ) (2020-06-10T23:29:05Z) - Is Your Goal-Oriented Dialog Model Performing Really Well? Empirical
Analysis of System-wise Evaluation [114.48767388174218]
本稿では,異なる設定の異なるモジュールから構成される異なるダイアログシステムについて,実験的検討を行った。
この結果から, 粗粒度ラベルで学習した連系や終端モデルを用いたシステムよりも, 細粒度監視信号を用いて訓練したパイプラインダイアログシステムの方が, 高い性能が得られることが示唆された。
論文 参考訳(メタデータ) (2020-05-15T05:20:06Z) - Recent Advances and Challenges in Task-oriented Dialog System [63.82055978899631]
課題指向対話システムは、学術・産業社会でますます注目を集めている。
タスク指向ダイアログシステムにおける3つの重要なトピックについて論じる。(1)低リソース環境でのダイアログモデリングを容易にするデータ効率の改善、(2)ダイアログポリシー学習のためのマルチターンダイナミクスのモデリング、(3)ダイアログモデルへのドメイン知識の統合。
論文 参考訳(メタデータ) (2020-03-17T01:34:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。