Fugu-MT 論文翻訳(概要): Evaluating Task-oriented Dialogue Systems: A Systematic Review of Measures, Constructs and their Operationalisations

論文の概要: Evaluating Task-oriented Dialogue Systems: A Systematic Review of Measures, Constructs and their Operationalisations

arxiv url: http://arxiv.org/abs/2312.13871v2
Date: Mon, 8 Apr 2024 07:36:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-10 01:46:19.024130
Title: Evaluating Task-oriented Dialogue Systems: A Systematic Review of Measures, Constructs and their Operationalisations
Title（参考訳）: タスク指向対話システムの評価:尺度・構成・運用の体系的レビュー
Authors: Anouck Braggaar, Christine Liebrecht, Emiel van Miltenburg, Emiel Krahmer,
Abstract要約: このレビューは、以前の作業で使われた構成とメトリクスの概要を提供する。また,対話システム評価の文脈における課題についても論じる。対話システム評価の将来に向けた研究課題を策定する。
参考スコア（独自算出の注目度）: 2.6122764214161363
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This review gives an extensive overview of evaluation methods for task-oriented dialogue systems, paying special attention to practical applications of dialogue systems, for example for customer service. The review (1) provides an overview of the used constructs and metrics in previous work, (2) discusses challenges in the context of dialogue system evaluation and (3) develops a research agenda for the future of dialogue system evaluation. We conducted a systematic review of four databases (ACL, ACM, IEEE and Web of Science), which after screening resulted in 122 studies. Those studies were carefully analysed for the constructs and methods they proposed for evaluation. We found a wide variety in both constructs and methods. Especially the operationalisation is not always clearly reported. Newer developments concerning large language models are discussed in two contexts: to power dialogue systems and to use in the evaluation process. We hope that future work will take a more critical approach to the operationalisation and specification of the used constructs. To work towards this aim, this review ends with recommendations for evaluation and suggestions for outstanding questions.
Abstract（参考訳）: 本稿では,タスク指向対話システムの評価手法について概観し,顧客サービスなどの対話システムの実用化に特に注目する。本報告では,(1)先行研究における使用済みコンストラクトとメトリクスの概要,(2)対話システム評価の文脈における課題,(3)対話システム評価の将来に向けた研究課題について概説する。我々は,4つのデータベース (ACL, ACM, IEEE, Web of Science) の体系的レビューを行った。これらの研究は、彼らが評価のために提案した構造と方法について慎重に分析された。コンストラクトとメソッドの両方で多種多様なものを見つけました。特に運用が必ずしも明確に報告されるとは限らない。大規模言語モデルに関する新たな展開は,対話システムのパワーアップと評価プロセスにおける利用の2つの文脈で議論されている。今後の作業が、使用済みのコンストラクトの運用と仕様に対して、より重要なアプローチを取ることを期待しています。この目的を達成するために、このレビューは、優れた質問に対する評価と提案のレコメンデーションで終わる。

関連論文リスト

Manifesto from Dagstuhl Perspectives Workshop 24352 -- Conversational Agents: A Framework for Evaluation (CAFE) [59.64777874324281]
本研究では,conIACシステム評価のための会話エージェントフレームワーク(CAFE)を定義した。 CAFEは,1)システムの利害関係者の目標,2)評価において研究すべきユーザタスク,3)タスクを実行するユーザの側面,4)検討すべき評価基準,5)適用すべき評価方法論,および6)選択された量的基準の尺度からなる。
論文参考訳（メタデータ） (2025-06-08T16:25:35Z)
Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey [64.08485471150486]
本研究では,大規模言語モデル(LLM)に基づくマルチターン対話環境におけるエージェントの評価手法について検討する。我々は250近い学術資料を体系的にレビューし、様々な出版場所から芸術の状態を捉えた。
論文参考訳（メタデータ） (2025-03-28T14:08:40Z)
Large Language Models for Outpatient Referral: Problem Definition, Benchmarking and Challenges [34.10494503049667]
大規模言語モデル(LLM)は、医療システム全体にわたる外来の紹介業務にますます適用されている。有効性を評価するための標準化された評価基準が欠如している。このようなシステムに特化して設計された包括的評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-11T11:05:42Z)
Large Language Models as Evaluators for Conversational Recommender Systems: Benchmarking System Performance from a User-Centric Perspective [38.940283784200005]
本研究では,LCMを用いたCRS自動評価フレームワークを提案する。これは、人間とコンピュータの相互作用と心理学に関する既存の研究に基づいている。このフレームワークを用いて、4つの異なる対話レコメンデーションシステムを評価する。
論文参考訳（メタデータ） (2025-01-16T12:06:56Z)
FCC: Fusing Conversation History and Candidate Provenance for Contextual Response Ranking in Dialogue Systems [53.89014188309486]
複数のチャネルからコンテキスト情報を統合できるフレキシブルなニューラルネットワークフレームワークを提案する。会話応答ランキングタスクの評価に広く用いられているMSDialogデータセット上で,本モデルの評価を行った。
論文参考訳（メタデータ） (2023-03-31T23:58:28Z)
Don't Forget Your ABC's: Evaluating the State-of-the-Art in Chat-Oriented Dialogue Systems [12.914512702731528]
本稿では,対話システムの挙動を推定する新しい人的評価手法を提案する。提案手法は,4つの最先端なオープンドメイン対話システムの評価と既存手法との比較に用いられている。
論文参考訳（メタデータ） (2022-12-18T22:07:55Z)
User Satisfaction Estimation with Sequential Dialogue Act Modeling in Goal-oriented Conversational Systems [65.88679683468143]
我々は,ユーザ満足度を予測するために,対話行動の逐次的ダイナミクスを取り入れた新しいフレームワーク,すなわちUSDAを提案する。 USDAは、ユーザの満足度を予測するために、コンテンツと行動機能の連続的な遷移を対話に取り入れている。 4つのベンチマーク目標指向対話データセットによる実験結果から,提案手法はUSEの既存手法よりも大幅に優れていた。
論文参考訳（メタデータ） (2022-02-07T02:50:07Z)
How to Evaluate Your Dialogue Models: A Review of Approaches [2.7834038784275403]
まず,評価手法を3つのクラス,すなわち自動評価,人間関係評価,ユーザシミュレータによる評価に分割する。また,対話手法の評価に適したベンチマークの存在についても詳細に論じている。
論文参考訳（メタデータ） (2021-08-03T08:52:33Z)
Assessing Dialogue Systems with Distribution Distances [48.61159795472962]
そこで本研究では,対話と実世界の会話の分散的距離を計算し,対話システムの性能を計測する。複数の対話コーパスを用いた実験により,提案手法は既存の指標よりも人間の判断によく相関することが示された。
論文参考訳（メタデータ） (2021-05-06T10:30:13Z)
Evaluate On-the-job Learning Dialogue Systems and a Case Study for Natural Language Understanding [3.557633666039596]
本研究は,実地学習対話システムを評価するための最初の一般的な手法を提案する。タスク指向対話システムについて説明し,ユーザインタラクションを通じてジョブの自然言語コンポーネントを改善する。
論文参考訳（メタデータ） (2021-02-26T16:54:16Z)
Modelling Hierarchical Structure between Dialogue Policy and Natural Language Generator with Option Framework for Task-oriented Dialogue System [49.39150449455407]
HDNOは、特定の対話行為表現の設計を避けるために潜在対話行為を設計するためのオプションフレームワークである。 RL,LaRL,HDSAで学習した単語レベルE2Eモデルと比較して,マルチドメイン対話のデータセットであるMultiWoz 2.0とMultiWoz 2.1でHDNOをテストする。
論文参考訳（メタデータ） (2020-06-11T20:55:28Z)
Towards Unified Dialogue System Evaluation: A Comprehensive Analysis of Current Evaluation Protocols [17.14709845342071]
現状では、チャット指向対話管理システムを評価するための様々な評価プロトコルが提案されている。本稿では,対話システムにおける自動評価手法と人的評価手法の総合的な合成について述べる。
論文参考訳（メタデータ） (2020-06-10T23:29:05Z)
Is Your Goal-Oriented Dialog Model Performing Really Well? Empirical Analysis of System-wise Evaluation [114.48767388174218]
本稿では,異なる設定の異なるモジュールから構成される異なるダイアログシステムについて,実験的検討を行った。この結果から, 粗粒度ラベルで学習した連系や終端モデルを用いたシステムよりも, 細粒度監視信号を用いて訓練したパイプラインダイアログシステムの方が, 高い性能が得られることが示唆された。
論文参考訳（メタデータ） (2020-05-15T05:20:06Z)
Recent Advances and Challenges in Task-oriented Dialog System [63.82055978899631]
課題指向対話システムは、学術・産業社会でますます注目を集めている。タスク指向ダイアログシステムにおける3つの重要なトピックについて論じる。(1)低リソース環境でのダイアログモデリングを容易にするデータ効率の改善、(2)ダイアログポリシー学習のためのマルチターンダイナミクスのモデリング、(3)ダイアログモデルへのドメイン知識の統合。
論文参考訳（メタデータ） (2020-03-17T01:34:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。