論文の概要: Modeling Performance in Open-Domain Dialogue with PARADISE
- arxiv url: http://arxiv.org/abs/2110.11164v1
- Date: Thu, 21 Oct 2021 14:17:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-23 00:44:34.608199
- Title: Modeling Performance in Open-Domain Dialogue with PARADISE
- Title(参考訳): PARADISEを用いたオープンドメイン対話のモデル化
- Authors: Marilyn Walker, Colin Harmon, James Graupera, Davan Harrison and Steve
Whittaker
- Abstract要約: 本研究では,実際のユーザと数千の会話に参加した対話システムであるAthenaの性能を予測するためのPARADISEモデルを開発した。
私たちのゴールは、任意のAlexa Prizeシステムの対話選択をリアルタイムで最適化するために使用できる汎用関数を学習することです。
- 参考スコア(独自算出の注目度): 7.516971632888974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There has recently been an explosion of work on spoken dialogue systems,
along with an increased interest in open-domain systems that engage in casual
conversations on popular topics such as movies, books and music. These systems
aim to socially engage, entertain, and even empathize with their users. Since
the achievement of such social goals is hard to measure, recent research has
used dialogue length or human ratings as evaluation metrics, and developed
methods for automatically calculating novel metrics, such as coherence,
consistency, relevance and engagement. Here we develop a PARADISE model for
predicting the performance of Athena, a dialogue system that has participated
in thousands of conversations with real users, while competing as a finalist in
the Alexa Prize. We use both user ratings and dialogue length as metrics for
dialogue quality, and experiment with predicting these metrics using automatic
features that are both system dependent and independent. Our goal is to learn a
general objective function that can be used to optimize the dialogue choices of
any Alexa Prize system in real time and evaluate its performance. Our best
model for predicting user ratings gets an R$^2$ of .136 with a DistilBert
model, and the best model for predicting length with system independent
features gets an R$^2$ of .865, suggesting that conversation length may be a
more reliable measure for automatic training of dialogue systems.
- Abstract(参考訳): 最近、音声対話システムの研究が急増し、映画、本、音楽などの人気トピックでカジュアルな会話を行うオープンドメインシステムへの関心が高まっている。
これらのシステムは、ユーザーと社会的に関わり、楽しませ、さらには共感することを目的としている。
このような社会的目標の達成は測定が難しいため、近年では対話長や人間格付けを評価指標として用い、コヒーレンス、一貫性、妥当性、エンゲージメントなどの新しい指標を自動的に計算する方法が開発されている。
本稿では,alexa prizeのファイナリストとして競いながら,実際のユーザとの何千もの会話に参加した対話システムであるathenaの性能を予測する楽園モデルを開発した。
ユーザ評価と対話長の両方を対話品質の指標として使用し,システム依存と独立性の両方を備えた自動機能を用いて,これらの指標を予測する実験を行った。
我々の目標は、Alexa Prizeシステムの対話選択をリアルタイムで最適化し、その性能を評価するために使用できる汎用関数を学習することである。
ユーザの評価を予測する最良のモデルは、ditilbertモデルで.136のr$^2$、システムに依存しない機能で長さを予測する最良のモデルは.865のr$^2$であり、対話システムの自動トレーニングにおいてより信頼性の高い尺度であることを示唆している。
関連論文リスト
- Psychological Metrics for Dialog System Evaluation [16.16116910201279]
我々は,人間コミュニケーションと人間関係の基礎となる,確立された心理学から解釈可能な5つの指標を提示する。
心理学的メトリクスは、7つの最先端の伝統的なメトリクスと比較される。
論文 参考訳(メタデータ) (2023-05-24T06:02:32Z) - Let's Get Personal: Personal Questions Improve SocialBot Performance in
the Alexa Prize [0.0]
音声対話コミュニティにおいて,対話型オープンドメイン対話システムの構築に焦点が当てられている。
従来の対話システムとは異なり、これらの対話システムは特定の情報やドメインの制限を前提とすることはできない。
我々は、Amazon Echoユーザーが大規模にアクセスし、評価する、堅牢なオープンドメイン会話システムであるAthenaを開発した。
論文 参考訳(メタデータ) (2023-03-09T00:10:29Z) - Dialogue Evaluation with Offline Reinforcement Learning [2.580163308334609]
タスク指向対話システムは,自然言語対話によるユーザ目標達成を目的としている。
これらは、開発フェーズのすべてのイテレーションで達成不可能な、人間のユーザによって理想的に評価されます。
静的コーパスに基づく対話評価のためのオフライン強化学習を提案する。
論文 参考訳(メタデータ) (2022-09-02T08:32:52Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - What is wrong with you?: Leveraging User Sentiment for Automatic Dialog
Evaluation [73.03318027164605]
本稿では,次のユーザの発話から自動的に抽出できる情報をプロキシとして利用して,前のシステム応答の質を測定することを提案する。
本モデルは,実際のユーザおよび有償ユーザから収集した音声と書面の両方のオープンドメインダイアログコーパスを一般化する。
論文 参考訳(メタデータ) (2022-03-25T22:09:52Z) - User Response and Sentiment Prediction for Automatic Dialogue Evaluation [69.11124655437902]
本稿では,次のユーザ発話の感情をターンレベル評価やダイアログレベル評価に利用することを提案する。
実験により,本モデルによる音声対話データセットと音声対話データセットの両方において,既存の自動評価指標よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-11-16T22:19:17Z) - Beyond User Self-Reported Likert Scale Ratings: A Comparison Model for
Automatic Dialog Evaluation [69.03658685761538]
オープンドメインダイアログシステム評価はダイアログ研究における最も重要な課題の1つである。
本稿では,自動評価モデルCMADEを提案する。
実験の結果,対話比較作業においてCMADEの精度は89.2%であった。
論文 参考訳(メタデータ) (2020-05-21T15:14:49Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z) - Attention over Parameters for Dialogue Systems [69.48852519856331]
我々は,異なる対話スキルを個別にパラメータ化する対話システムを学び,AoP(Attention over Parameters)を通じてそれぞれを選択し,組み合わせることを学ぶ。
実験の結果,MultiWOZ,In-Car Assistant,Persona-Chatの複合データセット上での競合性能が得られた。
論文 参考訳(メタデータ) (2020-01-07T03:10:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。