Fugu-MT 論文翻訳(概要): Evaluating Task-oriented Dialogue Systems: A Systematic Review of Measures, Constructs and their Operationalisations

論文の概要: Evaluating Task-oriented Dialogue Systems: A Systematic Review of Measures, Constructs and their Operationalisations

arxiv url: http://arxiv.org/abs/2312.13871v1
Date: Thu, 21 Dec 2023 14:15:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-22 14:41:48.520416
Title: Evaluating Task-oriented Dialogue Systems: A Systematic Review of Measures, Constructs and their Operationalisations
Title（参考訳）: タスク指向対話システムの評価 : 尺度・構成・運用の体系的考察
Authors: Anouck Braggaar, Christine Liebrecht, Emiel van Miltenburg, Emiel Krahmer
Abstract要約: このレビューは、以前の作業で使われた構成とメトリクスの概要を提供する。また,対話システム評価の文脈における課題についても論じる。対話システム評価の将来に向けた研究課題を策定する。
参考スコア（独自算出の注目度）: 2.853724325738555
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This review gives an extensive overview of evaluation methods for task-oriented dialogue systems, paying special attention to practical applications of dialogue systems, for example for customer service. The review (1) provides an overview of the used constructs and metrics in previous work, (2) discusses challenges in the context of dialogue system evaluation and (3) develops a research agenda for the future of dialogue system evaluation. We conducted a systematic review of four databases (ACL, ACM, IEEE and Web of Science), which after screening resulted in 122 studies. Those studies were carefully analysed for the constructs and methods they proposed for evaluation. We found a wide variety in both constructs and methods. Especially the operationalisation is not always clearly reported. We hope that future work will take a more critical approach to the operationalisation and specification of the used constructs. To work towards this aim, this review ends with recommendations for evaluation and suggestions for outstanding questions.
Abstract（参考訳）: 本論では,タスク指向対話システムの評価手法を概観し,顧客サービスのような対話システムの実用的応用に特に注目する。本報告では,(1)先行研究における使用済み構成とメトリクスの概要,(2)対話システム評価の文脈における課題,(3)対話システム評価の将来に向けた研究課題について概説する。 4つのデータベース(acl,acm,ieee,web of science)を体系的にレビューし,スクリーニングの結果122の研究結果を得た。これらの研究は、彼らが評価のために提案した構造と方法について慎重に分析された。コンストラクトとメソッドの両方で多種多様なものを見つけました。特に運用は必ずしも明確に報告されていない。使用済みのコンストラクタの運用と仕様に対して,今後の作業がより重要なアプローチになることを期待しています。この目的に向けて取り組むため、このレビューは、優れた質問に対する評価と提案の推奨で終わる。

関連論文リスト

A Methodology for Identifying Evaluation Items for Practical Dialogue Systems Based on Business-Dialogue System Alignment Models [3.1415249818332813]
本稿では,実用対話システムにおける評価項目の同定手法を提案する。従来、ユーザ満足度とユーザエクスペリエンスが、対話システムを評価する主要な指標でした。
論文参考訳（メタデータ） (2026-01-10T05:55:17Z)
Manifesto from Dagstuhl Perspectives Workshop 24352 -- Conversational Agents: A Framework for Evaluation (CAFE) [59.64777874324281]
本研究では,conIACシステム評価のための会話エージェントフレームワーク(CAFE)を定義した。 CAFEは,1)システムの利害関係者の目標,2)評価において研究すべきユーザタスク,3)タスクを実行するユーザの側面,4)検討すべき評価基準,5)適用すべき評価方法論,および6)選択された量的基準の尺度からなる。
論文参考訳（メタデータ） (2025-06-08T16:25:35Z)
Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey [64.08485471150486]
本研究では,大規模言語モデル(LLM)に基づくマルチターン対話環境におけるエージェントの評価手法について検討する。我々は250近い学術資料を体系的にレビューし、様々な出版場所から芸術の状態を捉えた。
論文参考訳（メタデータ） (2025-03-28T14:08:40Z)
Large Language Models for Outpatient Referral: Problem Definition, Benchmarking and Challenges [34.10494503049667]
大規模言語モデル(LLM)は、医療システム全体にわたる外来の紹介業務にますます適用されている。有効性を評価するための標準化された評価基準が欠如している。このようなシステムに特化して設計された包括的評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-11T11:05:42Z)
Large Language Models as Evaluators for Conversational Recommender Systems: Benchmarking System Performance from a User-Centric Perspective [38.940283784200005]
本研究では,LCMを用いたCRS自動評価フレームワークを提案する。これは、人間とコンピュータの相互作用と心理学に関する既存の研究に基づいている。このフレームワークを用いて、4つの異なる対話レコメンデーションシステムを評価する。
論文参考訳（メタデータ） (2025-01-16T12:06:56Z)
FCC: Fusing Conversation History and Candidate Provenance for Contextual Response Ranking in Dialogue Systems [53.89014188309486]
複数のチャネルからコンテキスト情報を統合できるフレキシブルなニューラルネットワークフレームワークを提案する。会話応答ランキングタスクの評価に広く用いられているMSDialogデータセット上で,本モデルの評価を行った。
論文参考訳（メタデータ） (2023-03-31T23:58:28Z)
Don't Forget Your ABC's: Evaluating the State-of-the-Art in Chat-Oriented Dialogue Systems [12.914512702731528]
本稿では,対話システムの挙動を推定する新しい人的評価手法を提案する。提案手法は,4つの最先端なオープンドメイン対話システムの評価と既存手法との比較に用いられている。
論文参考訳（メタデータ） (2022-12-18T22:07:55Z)
User Satisfaction Estimation with Sequential Dialogue Act Modeling in Goal-oriented Conversational Systems [65.88679683468143]
我々は,ユーザ満足度を予測するために,対話行動の逐次的ダイナミクスを取り入れた新しいフレームワーク,すなわちUSDAを提案する。 USDAは、ユーザの満足度を予測するために、コンテンツと行動機能の連続的な遷移を対話に取り入れている。 4つのベンチマーク目標指向対話データセットによる実験結果から,提案手法はUSEの既存手法よりも大幅に優れていた。
論文参考訳（メタデータ） (2022-02-07T02:50:07Z)
How to Evaluate Your Dialogue Models: A Review of Approaches [2.7834038784275403]
まず,評価手法を3つのクラス,すなわち自動評価,人間関係評価,ユーザシミュレータによる評価に分割する。また,対話手法の評価に適したベンチマークの存在についても詳細に論じている。
論文参考訳（メタデータ） (2021-08-03T08:52:33Z)
Assessing Dialogue Systems with Distribution Distances [48.61159795472962]
そこで本研究では,対話と実世界の会話の分散的距離を計算し,対話システムの性能を計測する。複数の対話コーパスを用いた実験により,提案手法は既存の指標よりも人間の判断によく相関することが示された。
論文参考訳（メタデータ） (2021-05-06T10:30:13Z)
Evaluate On-the-job Learning Dialogue Systems and a Case Study for Natural Language Understanding [3.557633666039596]
本研究は,実地学習対話システムを評価するための最初の一般的な手法を提案する。タスク指向対話システムについて説明し,ユーザインタラクションを通じてジョブの自然言語コンポーネントを改善する。
論文参考訳（メタデータ） (2021-02-26T16:54:16Z)
Modelling Hierarchical Structure between Dialogue Policy and Natural Language Generator with Option Framework for Task-oriented Dialogue System [49.39150449455407]
HDNOは、特定の対話行為表現の設計を避けるために潜在対話行為を設計するためのオプションフレームワークである。 RL,LaRL,HDSAで学習した単語レベルE2Eモデルと比較して,マルチドメイン対話のデータセットであるMultiWoz 2.0とMultiWoz 2.1でHDNOをテストする。
論文参考訳（メタデータ） (2020-06-11T20:55:28Z)
Towards Unified Dialogue System Evaluation: A Comprehensive Analysis of Current Evaluation Protocols [17.14709845342071]
現状では、チャット指向対話管理システムを評価するための様々な評価プロトコルが提案されている。本稿では,対話システムにおける自動評価手法と人的評価手法の総合的な合成について述べる。
論文参考訳（メタデータ） (2020-06-10T23:29:05Z)
Is Your Goal-Oriented Dialog Model Performing Really Well? Empirical Analysis of System-wise Evaluation [114.48767388174218]
本稿では,異なる設定の異なるモジュールから構成される異なるダイアログシステムについて,実験的検討を行った。この結果から, 粗粒度ラベルで学習した連系や終端モデルを用いたシステムよりも, 細粒度監視信号を用いて訓練したパイプラインダイアログシステムの方が, 高い性能が得られることが示唆された。
論文参考訳（メタデータ） (2020-05-15T05:20:06Z)
Recent Advances and Challenges in Task-oriented Dialog System [63.82055978899631]
課題指向対話システムは、学術・産業社会でますます注目を集めている。タスク指向ダイアログシステムにおける3つの重要なトピックについて論じる。(1)低リソース環境でのダイアログモデリングを容易にするデータ効率の改善、(2)ダイアログポリシー学習のためのマルチターンダイナミクスのモデリング、(3)ダイアログモデルへのドメイン知識の統合。
論文参考訳（メタデータ） (2020-03-17T01:34:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。