論文の概要: Joint Turn and Dialogue level User Satisfaction Estimation on
Multi-Domain Conversations
- arxiv url: http://arxiv.org/abs/2010.02495v2
- Date: Thu, 8 Oct 2020 21:10:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 04:51:45.267050
- Title: Joint Turn and Dialogue level User Satisfaction Estimation on
Multi-Domain Conversations
- Title(参考訳): 多ドメイン会話における対話レベルのユーザ満足度推定
- Authors: Praveen Kumar Bodigutla, Aditya Tiwari, Josep Valls Vargas, Lazaros
Polymenakos, Spyros Matsoukas
- Abstract要約: ターンレベルと対話レベルのユーザ満足度を推定する現在の自動化手法は手作りの機能を採用している。
適応型マルチタスク損失関数を最小化する新しいユーザ満足度推定手法を提案する。
BiLSTMベースのディープニューラルネットワークモデルは、推定された対話レベル評価に対する各ターンのコントリビューションを自動的に評価する。
- 参考スコア(独自算出の注目度): 6.129731338249762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dialogue level quality estimation is vital for optimizing data driven
dialogue management. Current automated methods to estimate turn and dialogue
level user satisfaction employ hand-crafted features and rely on complex
annotation schemes, which reduce the generalizability of the trained models. We
propose a novel user satisfaction estimation approach which minimizes an
adaptive multi-task loss function in order to jointly predict turn-level
Response Quality labels provided by experts and explicit dialogue-level ratings
provided by end users. The proposed BiLSTM based deep neural net model
automatically weighs each turn's contribution towards the estimated
dialogue-level rating, implicitly encodes temporal dependencies, and removes
the need to hand-craft features.
On dialogues sampled from 28 Alexa domains, two dialogue systems and three
user groups, the joint dialogue-level satisfaction estimation model achieved up
to an absolute 27% (0.43->0.70) and 7% (0.63->0.70) improvement in linear
correlation performance over baseline deep neural net and benchmark Gradient
boosting regression models, respectively.
- Abstract(参考訳): データ駆動対話管理の最適化には,対話レベルの品質評価が不可欠である。
ターンレベルとダイアログレベルのユーザ満足度を推定する現在の自動化手法は手作りの機能を採用し、複雑なアノテーションスキームに依存しているため、訓練されたモデルの一般化性が低下する。
本稿では,専門家が提供したターンレベル応答品質ラベルと,エンドユーザが提供した明示的な対話レベル評価を共同で予測するために,適応型マルチタスク損失関数を最小化するユーザ満足度推定手法を提案する。
提案されたBiLSTMベースのディープニューラルネットモデルは、推定対話レベル評価に対する各ターンのコントリビューションを自動的に評価し、時間依存性を暗黙的にエンコードし、手作り機能の必要性を取り除く。
28のalexaドメイン,2つの対話システム,3つのユーザグループからサンプルされた対話では,対話レベルの満足度推定モデルが絶対27% (0.43->0.70) と7% (0.63->0.70) の改善を達成した。
関連論文リスト
- CAUSE: Counterfactual Assessment of User Satisfaction Estimation in Task-Oriented Dialogue Systems [60.27663010453209]
我々は,大規模言語モデル(LLM)を利用して,満足度を考慮した対実対話を生成する。
生成されたサンプルの信頼性を確保するために、人間のアノテーションを収集します。
この結果から,TODシステムにおけるユーザ満足度推定のためのデータ拡張手法の必要性が明らかになった。
論文 参考訳(メタデータ) (2024-03-27T23:45:31Z) - Toward More Accurate and Generalizable Evaluation Metrics for
Task-Oriented Dialogs [19.43845920149182]
ダイアログ品質と呼ばれる新しいダイアログレベルのアノテーションワークフローを導入する。
DQAの専門家アノテータは、ダイアログ全体の品質を評価し、ゴール完了やユーザ感情などの属性に対するラベルダイアログも評価する。
我々は,大規模音声アシスタントプラットフォームにおける対話品質を評価する上で,高品質なヒューマンアノテートデータを持つことが重要であると論じている。
論文 参考訳(メタデータ) (2023-06-06T19:43:29Z) - FineD-Eval: Fine-grained Automatic Dialogue-Level Evaluation [58.46761798403072]
本稿では,3つのサブメトリックから構成され,それぞれが特定の次元を対象とする対話レベルメトリクスを提案する。
サブメトリックは、新しい自己監督目的で訓練され、それぞれの次元について人間の判断と強い相関関係を示す。
既存の最先端のメトリクスと比較すると、組み合わせたメトリクスは平均して16%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2022-10-25T08:26:03Z) - What Went Wrong? Explaining Overall Dialogue Quality through
Utterance-Level Impacts [15.018259942339448]
本稿では,ユーザ・システム間相互作用と対話品質の関係を学習する会話ログの自動解析手法を提案する。
提案手法は,発話レベルのアノテーションを使わずに,ユーザ評価全体からインタラクションの影響を学習する。
実験により,我々のモデルからの自動解析が専門家の判断と一致していることが示され,このような発話レベルの品質予測の弱い教師付き学習が達成可能であることを示す最初の方法となった。
論文 参考訳(メタデータ) (2021-10-31T19:12:29Z) - WeaSuL: Weakly Supervised Dialogue Policy Learning: Reward Estimation
for Multi-turn Dialogue [17.663449579168297]
エージェントとユーザ(教師付き学習目標を持つエージェントに類似したモデル化)の対話をシミュレートし、相互に対話する。
エージェントは動的ブロッキングを使用して、ランク付けされた多様な応答と探索-探索を生成し、トップK応答の中から選択する。
2つのベンチマークによる実証研究は、我々のモデルが応答品質を著しく上回り、会話の成功につながることを示唆している。
論文 参考訳(メタデータ) (2021-08-01T08:00:45Z) - DynaEval: Unifying Turn and Dialogue Level Evaluation [60.66883575106898]
統合された自動評価フレームワークDynaEvalを提案する。
ターンレベルの評価を行うことができるが、対話全体の品質を公平に考慮することもできる。
実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-06-02T12:23:18Z) - Turn-level Dialog Evaluation with Dialog-level Weak Signals for
Bot-Human Hybrid Customer Service Systems [0.0]
インタラクションの間いつでも、顧客サービスコンタクトにおける成功や価値の複数の側面を定量化する機械学習アプローチを開発しました。
いくつかのアプリケーションにおいて、Amazonのカスタマーサービス品質がどのように改善されているかを示します。
論文 参考訳(メタデータ) (2020-10-25T19:36:23Z) - Dialogue Distillation: Open-Domain Dialogue Augmentation Using Unpaired
Data [61.71319905364992]
未ペアデータを利用したオープンドメイン対話モデルのトレーニングのための新しいデータ拡張手法を提案する。
データレベルの蒸留プロセスが最初に提案され、未確認データからポストとレスポンスの両方を検索する拡張ダイアログを構築する。
低品質の対話をフィルタリングするためにランキングモジュールが使用される。
モデルレベルの蒸留プロセスを用いて、高品質なペアデータに基づいて訓練された教師モデルを、強化された対話ペアに蒸留する。
論文 参考訳(メタデータ) (2020-09-20T13:06:38Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z) - Modeling Long Context for Task-Oriented Dialogue State Generation [51.044300192906995]
本稿では,シンプルで効果的な発話タグ付け手法と双方向言語モデルを用いたマルチタスク学習モデルを提案する。
提案手法は,入力対話コンテキストシーケンスが長い場合に,ベースラインの性能が著しく低下する,という問題を解決する。
本実験では,MultiWOZ 2.0データセットにおいて,ベースラインに対して7.03%の相対的改善を実現し,新しい最先端のジョイントゴール精度を52.04%に設定した。
論文 参考訳(メタデータ) (2020-04-29T11:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。