論文の概要: Evaluating Task-oriented Dialogue Systems: A Systematic Review of
Measures, Constructs and their Operationalisations
- arxiv url: http://arxiv.org/abs/2312.13871v1
- Date: Thu, 21 Dec 2023 14:15:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 14:41:48.520416
- Title: Evaluating Task-oriented Dialogue Systems: A Systematic Review of
Measures, Constructs and their Operationalisations
- Title(参考訳): タスク指向対話システムの評価 : 尺度・構成・運用の体系的考察
- Authors: Anouck Braggaar, Christine Liebrecht, Emiel van Miltenburg, Emiel
Krahmer
- Abstract要約: このレビューは、以前の作業で使われた構成とメトリクスの概要を提供する。
また,対話システム評価の文脈における課題についても論じる。
対話システム評価の将来に向けた研究課題を策定する。
- 参考スコア(独自算出の注目度): 2.853724325738555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This review gives an extensive overview of evaluation methods for
task-oriented dialogue systems, paying special attention to practical
applications of dialogue systems, for example for customer service. The review
(1) provides an overview of the used constructs and metrics in previous work,
(2) discusses challenges in the context of dialogue system evaluation and (3)
develops a research agenda for the future of dialogue system evaluation. We
conducted a systematic review of four databases (ACL, ACM, IEEE and Web of
Science), which after screening resulted in 122 studies. Those studies were
carefully analysed for the constructs and methods they proposed for evaluation.
We found a wide variety in both constructs and methods. Especially the
operationalisation is not always clearly reported. We hope that future work
will take a more critical approach to the operationalisation and specification
of the used constructs. To work towards this aim, this review ends with
recommendations for evaluation and suggestions for outstanding questions.
- Abstract(参考訳): 本論では,タスク指向対話システムの評価手法を概観し,顧客サービスのような対話システムの実用的応用に特に注目する。
本報告では,(1)先行研究における使用済み構成とメトリクスの概要,(2)対話システム評価の文脈における課題,(3)対話システム評価の将来に向けた研究課題について概説する。
4つのデータベース(acl,acm,ieee,web of science)を体系的にレビューし,スクリーニングの結果122の研究結果を得た。
これらの研究は、彼らが評価のために提案した構造と方法について慎重に分析された。
コンストラクトとメソッドの両方で多種多様なものを見つけました。
特に運用は必ずしも明確に報告されていない。
使用済みのコンストラクタの運用と仕様に対して,今後の作業がより重要なアプローチになることを期待しています。
この目的に向けて取り組むため、このレビューは、優れた質問に対する評価と提案の推奨で終わる。
関連論文リスト
- FCC: Fusing Conversation History and Candidate Provenance for Contextual
Response Ranking in Dialogue Systems [53.89014188309486]
複数のチャネルからコンテキスト情報を統合できるフレキシブルなニューラルネットワークフレームワークを提案する。
会話応答ランキングタスクの評価に広く用いられているMSDialogデータセット上で,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-03-31T23:58:28Z) - Don't Forget Your ABC's: Evaluating the State-of-the-Art in
Chat-Oriented Dialogue Systems [12.914512702731528]
本稿では,対話システムの挙動を推定する新しい人的評価手法を提案する。
提案手法は,4つの最先端なオープンドメイン対話システムの評価と既存手法との比較に用いられている。
論文 参考訳(メタデータ) (2022-12-18T22:07:55Z) - User Satisfaction Estimation with Sequential Dialogue Act Modeling in
Goal-oriented Conversational Systems [65.88679683468143]
我々は,ユーザ満足度を予測するために,対話行動の逐次的ダイナミクスを取り入れた新しいフレームワーク,すなわちUSDAを提案する。
USDAは、ユーザの満足度を予測するために、コンテンツと行動機能の連続的な遷移を対話に取り入れている。
4つのベンチマーク目標指向対話データセットによる実験結果から,提案手法はUSEの既存手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-02-07T02:50:07Z) - How to Evaluate Your Dialogue Models: A Review of Approaches [2.7834038784275403]
まず,評価手法を3つのクラス,すなわち自動評価,人間関係評価,ユーザシミュレータによる評価に分割する。
また,対話手法の評価に適したベンチマークの存在についても詳細に論じている。
論文 参考訳(メタデータ) (2021-08-03T08:52:33Z) - Assessing Dialogue Systems with Distribution Distances [48.61159795472962]
そこで本研究では,対話と実世界の会話の分散的距離を計算し,対話システムの性能を計測する。
複数の対話コーパスを用いた実験により,提案手法は既存の指標よりも人間の判断によく相関することが示された。
論文 参考訳(メタデータ) (2021-05-06T10:30:13Z) - Evaluate On-the-job Learning Dialogue Systems and a Case Study for
Natural Language Understanding [3.557633666039596]
本研究は,実地学習対話システムを評価するための最初の一般的な手法を提案する。
タスク指向対話システムについて説明し,ユーザインタラクションを通じてジョブの自然言語コンポーネントを改善する。
論文 参考訳(メタデータ) (2021-02-26T16:54:16Z) - Modelling Hierarchical Structure between Dialogue Policy and Natural
Language Generator with Option Framework for Task-oriented Dialogue System [49.39150449455407]
HDNOは、特定の対話行為表現の設計を避けるために潜在対話行為を設計するためのオプションフレームワークである。
RL,LaRL,HDSAで学習した単語レベルE2Eモデルと比較して,マルチドメイン対話のデータセットであるMultiWoz 2.0とMultiWoz 2.1でHDNOをテストする。
論文 参考訳(メタデータ) (2020-06-11T20:55:28Z) - Towards Unified Dialogue System Evaluation: A Comprehensive Analysis of
Current Evaluation Protocols [17.14709845342071]
現状では、チャット指向対話管理システムを評価するための様々な評価プロトコルが提案されている。
本稿では,対話システムにおける自動評価手法と人的評価手法の総合的な合成について述べる。
論文 参考訳(メタデータ) (2020-06-10T23:29:05Z) - Is Your Goal-Oriented Dialog Model Performing Really Well? Empirical
Analysis of System-wise Evaluation [114.48767388174218]
本稿では,異なる設定の異なるモジュールから構成される異なるダイアログシステムについて,実験的検討を行った。
この結果から, 粗粒度ラベルで学習した連系や終端モデルを用いたシステムよりも, 細粒度監視信号を用いて訓練したパイプラインダイアログシステムの方が, 高い性能が得られることが示唆された。
論文 参考訳(メタデータ) (2020-05-15T05:20:06Z) - Recent Advances and Challenges in Task-oriented Dialog System [63.82055978899631]
課題指向対話システムは、学術・産業社会でますます注目を集めている。
タスク指向ダイアログシステムにおける3つの重要なトピックについて論じる。(1)低リソース環境でのダイアログモデリングを容易にするデータ効率の改善、(2)ダイアログポリシー学習のためのマルチターンダイナミクスのモデリング、(3)ダイアログモデルへのドメイン知識の統合。
論文 参考訳(メタデータ) (2020-03-17T01:34:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。