論文の概要: An Evaluation Protocol for Generative Conversational Systems
- arxiv url: http://arxiv.org/abs/2010.12741v1
- Date: Sat, 24 Oct 2020 01:59:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 12:44:24.137857
- Title: An Evaluation Protocol for Generative Conversational Systems
- Title(参考訳): 生成的会話システムのための評価プロトコル
- Authors: Seolhwa Lee, Heuiseok Lim, Jo\~ao Sedoc
- Abstract要約: 我々は,対話モデル評価のためのプロトコルを,頭部対対比較を用いて構築した。
我々は,5つの評価データセットを用いて,2対のヘッド・ツー・ヘッド性能(ウィン・ロス・ティー)を用いて最先端性能を主張する最近の10つのモデルを分析する。
- 参考スコア(独自算出の注目度): 3.2858262572939148
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is a multitude of novel generative models for open-domain
conversational systems; however, there is no systematic evaluation of different
systems. Systematic comparisons require consistency in experimental design,
evaluation sets, conversational systems and their outputs, and statistical
analysis. We lay out a protocol for the evaluation of conversational models
using head-to-head pairwise comparison. We analyze ten recent models that claim
state-of-the-art performance using a paired head-to-head performance
(win-loss-tie) on five evaluation datasets. Our findings show that DialoGPT and
Blender are superior systems using Bradley-Terry model and TrueSkill ranking
methods. These findings demonstrate the feasibility of our protocol to evaluate
conversational agents and evaluation sets. Finally, we make all code and
evaluations publicly available for researchers to compare their model to other
state-of-the-art dialog models.
- Abstract(参考訳): オープンドメイン会話システムには多数の新しい生成モデルが存在するが、異なるシステムの体系的な評価はされていない。
体系的な比較は、実験設計、評価セット、会話システムとその出力、統計解析において一貫性を必要とする。
対頭比較を用いた会話モデル評価のためのプロトコルを考案した。
我々は,5つの評価データセットにおいて,ヘッド・ツー・ヘッド・パフォーマンス (win-loss-tie) のペアによる最新性能を主張する10のモデルを分析した。
以上の結果から,DialoGPTとBlenderはBradley-TerryモデルとTrueSkillランキングを用いた優れたシステムであることがわかった。
本研究は,対話型エージェントと評価セットを評価するためのプロトコルの実現可能性を示す。
最後に、すべてのコードと評価を研究者が公開して、彼らのモデルを他の最先端ダイアログモデルと比較します。
関連論文リスト
- GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - To Recommend or Not? A Model-Based Comparison of Item-Matching Processes [7.636113901205644]
推薦システムは、現代のオンラインプラットフォームの中心であるが、一般的な懸念は、彼らが社会を危険な方向に引っ張っていることだ。
私たちはこの課題に対してモデルベースのアプローチを採用し、比較可能なプロセスモデルの二分法を導入しています。
私たちの重要な発見は、レコメンデーターとオーガニックモデルが、個人レベルと社会的レベルの両方で劇的に異なる結果をもたらすことです。
論文 参考訳(メタデータ) (2021-10-21T20:37:56Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Assessing Dialogue Systems with Distribution Distances [48.61159795472962]
そこで本研究では,対話と実世界の会話の分散的距離を計算し,対話システムの性能を計測する。
複数の対話コーパスを用いた実験により,提案手法は既存の指標よりも人間の判断によく相関することが示された。
論文 参考訳(メタデータ) (2021-05-06T10:30:13Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Towards Unified Dialogue System Evaluation: A Comprehensive Analysis of
Current Evaluation Protocols [17.14709845342071]
現状では、チャット指向対話管理システムを評価するための様々な評価プロトコルが提案されている。
本稿では,対話システムにおける自動評価手法と人的評価手法の総合的な合成について述べる。
論文 参考訳(メタデータ) (2020-06-10T23:29:05Z) - Is Your Goal-Oriented Dialog Model Performing Really Well? Empirical
Analysis of System-wise Evaluation [114.48767388174218]
本稿では,異なる設定の異なるモジュールから構成される異なるダイアログシステムについて,実験的検討を行った。
この結果から, 粗粒度ラベルで学習した連系や終端モデルを用いたシステムよりも, 細粒度監視信号を用いて訓練したパイプラインダイアログシステムの方が, 高い性能が得られることが示唆された。
論文 参考訳(メタデータ) (2020-05-15T05:20:06Z) - PONE: A Novel Automatic Evaluation Metric for Open-Domain Generative
Dialogue Systems [48.99561874529323]
オープンドメイン生成対話システムの評価には3つの方法がある。
体系的な比較が欠如しているため、どの指標がより効果的であるかは明らかでない。
本稿では,人間の判断との相関性を大幅に改善できる,新しい,実現可能な学習基準を提案する。
論文 参考訳(メタデータ) (2020-04-06T04:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。