論文の概要: Toward More Accurate and Generalizable Evaluation Metrics for
Task-Oriented Dialogs
- arxiv url: http://arxiv.org/abs/2306.03984v2
- Date: Fri, 9 Jun 2023 01:17:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 16:16:14.701983
- Title: Toward More Accurate and Generalizable Evaluation Metrics for
Task-Oriented Dialogs
- Title(参考訳): タスク指向ダイアログのより正確で一般化した評価メトリクスを目指して
- Authors: Abishek Komma, Nagesh Panyam Chandrasekarasastry, Timothy Leffel, Anuj
Goyal, Angeliki Metallinou, Spyros Matsoukas, Aram Galstyan
- Abstract要約: ダイアログ品質と呼ばれる新しいダイアログレベルのアノテーションワークフローを導入する。
DQAの専門家アノテータは、ダイアログ全体の品質を評価し、ゴール完了やユーザ感情などの属性に対するラベルダイアログも評価する。
我々は,大規模音声アシスタントプラットフォームにおける対話品質を評価する上で,高品質なヒューマンアノテートデータを持つことが重要であると論じている。
- 参考スコア(独自算出の注目度): 19.43845920149182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Measurement of interaction quality is a critical task for the improvement of
spoken dialog systems. Existing approaches to dialog quality estimation either
focus on evaluating the quality of individual turns, or collect dialog-level
quality measurements from end users immediately following an interaction. In
contrast to these approaches, we introduce a new dialog-level annotation
workflow called Dialog Quality Annotation (DQA). DQA expert annotators evaluate
the quality of dialogs as a whole, and also label dialogs for attributes such
as goal completion and user sentiment. In this contribution, we show that: (i)
while dialog quality cannot be completely decomposed into dialog-level
attributes, there is a strong relationship between some objective dialog
attributes and judgments of dialog quality; (ii) for the task of dialog-level
quality estimation, a supervised model trained on dialog-level annotations
outperforms methods based purely on aggregating turn-level features; and (iii)
the proposed evaluation model shows better domain generalization ability
compared to the baselines. On the basis of these results, we argue that having
high-quality human-annotated data is an important component of evaluating
interaction quality for large industrial-scale voice assistant platforms.
- Abstract(参考訳): 対話システムの改善には,対話品質の測定が重要な課題である。
既存のダイアログ品質推定手法は、個々のターンの品質を評価することに集中するか、対話の直後にエンドユーザーからダイアログレベルの品質測定を収集する。
これらのアプローチとは対照的に、ダイアログ品質アノテーション(DQA)と呼ばれる新しいダイアログレベルのアノテーションワークフローを導入する。
DQAエキスパートアノテータはダイアログ全体の品質を評価し、ゴール完了やユーザ感情などの属性に対するラベルダイアログも評価する。
この貢献で、私たちは次のように示します。
(i)ダイアログ品質を完全にダイアログレベル属性に分解することはできないが、目的ダイアログ属性とダイアログ品質判断との間には強い関係がある。
(ii)ダイアログレベルの品質推定のタスクでは、ダイアログレベルのアノテーションを訓練した教師付きモデルが、単にターンレベルの特徴を集約することに基づくメソッドを上回る。
(iii)提案評価モデルでは,ベースラインと比較してドメイン一般化能力が向上した。
これらの結果に基づいて,大規模音声アシスタントプラットフォームにおける対話品質を評価する上で,高品質な人間記述データを持つことが重要であると論じる。
関連論文リスト
- DiQAD: A Benchmark Dataset for End-to-End Open-domain Dialogue
Assessment [38.26039323208791]
オープンドメインの対話品質を自動的に評価するための大規模対話品質評価データセット(DiQAD)をリリースする。
具体的には,対話の質に関する人間の判断に適合する寸法に基づいて,評価基準を確立する。
また、これらの基準に基づいて実際のユーザ間で会話する大規模な対話を注釈付けし、約10万の対話を含む。
論文 参考訳(メタデータ) (2023-10-25T03:04:57Z) - FCC: Fusing Conversation History and Candidate Provenance for Contextual
Response Ranking in Dialogue Systems [53.89014188309486]
複数のチャネルからコンテキスト情報を統合できるフレキシブルなニューラルネットワークフレームワークを提案する。
会話応答ランキングタスクの評価に広く用いられているMSDialogデータセット上で,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-03-31T23:58:28Z) - FineD-Eval: Fine-grained Automatic Dialogue-Level Evaluation [58.46761798403072]
本稿では,3つのサブメトリックから構成され,それぞれが特定の次元を対象とする対話レベルメトリクスを提案する。
サブメトリックは、新しい自己監督目的で訓練され、それぞれの次元について人間の判断と強い相関関係を示す。
既存の最先端のメトリクスと比較すると、組み合わせたメトリクスは平均して16%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2022-10-25T08:26:03Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - FlowEval: A Consensus-Based Dialogue Evaluation Framework Using Segment
Act Flows [63.116280145770006]
本稿では,音声レベルからセグメントレベルへのダイアログ行為の拡張であるセグメントアクトを提案し,大規模データセットをクラウドソースする。
セグメントアクトフローを利用するために,セグメントアクションのシーケンスを評価のために,最初のコンセンサスに基づく対話評価フレームワークであるFlowEvalを開発した。
論文 参考訳(メタデータ) (2022-02-14T11:37:20Z) - Task-oriented Dialogue Systems: performance vs. quality-optima, a review [0.0]
最先端のタスク指向対話システムは、まだその可能性を最大限に発揮できていない。
他の会話の品質特性は、会話の成功を示すもの、そうでなければ、無視されることがある。
本稿では,対話システムの評価枠組みと対話システムにおける会話品質特性の役割について考察する。
論文 参考訳(メタデータ) (2021-12-21T13:16:24Z) - Actionable Conversational Quality Indicators for Improving Task-Oriented
Dialog Systems [2.6094079735487994]
本稿では、ACQI(Actionable Conversational Quality Indicator)の使用について紹介し、解説する。
ACQIは、改善可能なダイアログの一部を認識し、改善する方法を推奨するために使用される。
本稿では、商用顧客サービスアプリケーションで使用されるLivePersonの内部ダイアログシステムにおけるACQIの使用の有効性を示す。
論文 参考訳(メタデータ) (2021-09-22T22:41:42Z) - WeaSuL: Weakly Supervised Dialogue Policy Learning: Reward Estimation
for Multi-turn Dialogue [17.663449579168297]
エージェントとユーザ(教師付き学習目標を持つエージェントに類似したモデル化)の対話をシミュレートし、相互に対話する。
エージェントは動的ブロッキングを使用して、ランク付けされた多様な応答と探索-探索を生成し、トップK応答の中から選択する。
2つのベンチマークによる実証研究は、我々のモデルが応答品質を著しく上回り、会話の成功につながることを示唆している。
論文 参考訳(メタデータ) (2021-08-01T08:00:45Z) - DynaEval: Unifying Turn and Dialogue Level Evaluation [60.66883575106898]
統合された自動評価フレームワークDynaEvalを提案する。
ターンレベルの評価を行うことができるが、対話全体の品質を公平に考慮することもできる。
実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-06-02T12:23:18Z) - Assessing Dialogue Systems with Distribution Distances [48.61159795472962]
そこで本研究では,対話と実世界の会話の分散的距離を計算し,対話システムの性能を計測する。
複数の対話コーパスを用いた実験により,提案手法は既存の指標よりも人間の判断によく相関することが示された。
論文 参考訳(メタデータ) (2021-05-06T10:30:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。