論文の概要: Achieving Reliable Human Assessment of Open-Domain Dialogue Systems
- arxiv url: http://arxiv.org/abs/2203.05899v1
- Date: Fri, 11 Mar 2022 13:08:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 16:00:35.501128
- Title: Achieving Reliable Human Assessment of Open-Domain Dialogue Systems
- Title(参考訳): オープンドメイン対話システムの信頼性評価
- Authors: Tianbo Ji, Yvette Graham, Gareth J. F. Jones, Chenyang Lyu, Qun Liu
- Abstract要約: 我々は, 信頼性が高く, 実現可能で低コストな人的評価の開発に成功していることを示す。
統計的意義試験の適切な方法が欠如しているため、対話評価において偶然に発生するシステム改善の可能性を考慮することはめったにない。
- 参考スコア(独自算出の注目度): 24.478609926760587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluation of open-domain dialogue systems is highly challenging and
development of better techniques is highlighted time and again as desperately
needed. Despite substantial efforts to carry out reliable live evaluation of
systems in recent competitions, annotations have been abandoned and reported as
too unreliable to yield sensible results. This is a serious problem since
automatic metrics are not known to provide a good indication of what may or may
not be a high-quality conversation. Answering the distress call of competitions
that have emphasized the urgent need for better evaluation techniques in
dialogue, we present the successful development of human evaluation that is
highly reliable while still remaining feasible and low cost. Self-replication
experiments reveal almost perfectly repeatable results with a correlation of
$r=0.969$. Furthermore, due to the lack of appropriate methods of statistical
significance testing, the likelihood of potential improvements to systems
occurring due to chance is rarely taken into account in dialogue evaluation,
and the evaluation we propose facilitates application of standard tests. Since
we have developed a highly reliable evaluation method, new insights into system
performance can be revealed. We therefore include a comparison of
state-of-the-art models (i) with and without personas, to measure the
contribution of personas to conversation quality, as well as (ii) prescribed
versus freely chosen topics. Interestingly with respect to personas, results
indicate that personas do not positively contribute to conversation quality as
expected.
- Abstract(参考訳): オープンドメイン対話システムの評価は非常に困難であり、より良い技術の開発は必死に必要であるように何度も強調される。
近年の競技において、システムの信頼性の高いライブ評価を行うためのかなりの努力にもかかわらず、アノテーションは放棄され、賢明な結果を得るには信頼できないと報告されている。
自動メトリクスは、何が高品質な会話であるか、そうでないのかをよく示さないことが分かっていないため、これは深刻な問題です。
対話におけるより良い評価手法の緊急の必要性を強調した競技会の難問に答えて, 信頼性が高く, 実現可能かつ低コストな評価手法の開発が成功していることを示す。
自己複製実験は、ほぼ完全に再現可能な結果を示し、相関は$r=0.969$である。
さらに, 統計的意義試験の適切な方法が欠如していることから, 対話評価において偶然に発生するシステム改善の可能性を考慮することは稀であり, 提案する評価は, 標準試験の適用を促進する。
信頼性の高い評価手法を開発した結果,システム性能に関する新たな知見が得られた。
したがって、最先端モデルの比較を含む。
一 人格とともに、会話の質に対する人格の貢献を測定すること
(ii) 自由に選択された話題に対して規定する。
興味深いことに、ペルソナに関する結果は、ペルソナが期待通りに会話品質に寄与しないことを示している。
関連論文リスト
- MIRROR: A Novel Approach for the Automated Evaluation of Open-Ended Question Generation [0.4857223913212445]
自動質問生成システムによって生成される質問に対する評価プロセスを自動化する新しいシステムMIRRORを提案する。
その結果,MIRRORと呼ばれるフィードバックに基づく手法を用いることで,人間の評価指標,すなわち妥当性,適切性,新規性,複雑性,文法性のスコアが向上した。
論文 参考訳(メタデータ) (2024-10-16T12:24:42Z) - PairEval: Open-domain Dialogue Evaluation with Pairwise Comparison [38.03304773600225]
PairEvalは、異なる会話における応答と品質を比較して応答を評価するための、新しい対話評価指標である。
PairEvalは基準値よりも人間の判断と高い相関を示すことを示す。
また,提案手法は,オープンドメイン対話システムからの共通障害の検出において,より堅牢であることがわかった。
論文 参考訳(メタデータ) (2024-04-01T09:35:06Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Don't Forget Your ABC's: Evaluating the State-of-the-Art in
Chat-Oriented Dialogue Systems [12.914512702731528]
本稿では,対話システムの挙動を推定する新しい人的評価手法を提案する。
提案手法は,4つの最先端なオープンドメイン対話システムの評価と既存手法との比較に用いられている。
論文 参考訳(メタデータ) (2022-12-18T22:07:55Z) - Automatic Evaluation and Moderation of Open-domain Dialogue Systems [59.305712262126264]
研究者が悩む長きにわたる課題は、効果的な自動評価指標の欠如である。
本稿では, 対話システム技術チャレンジ10(DSTC10)におけるトラック5で得られたデータ, ベースライン, 結果について述べる。
論文 参考訳(メタデータ) (2021-11-03T10:08:05Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z) - Towards Unified Dialogue System Evaluation: A Comprehensive Analysis of
Current Evaluation Protocols [17.14709845342071]
現状では、チャット指向対話管理システムを評価するための様々な評価プロトコルが提案されている。
本稿では,対話システムにおける自動評価手法と人的評価手法の総合的な合成について述べる。
論文 参考訳(メタデータ) (2020-06-10T23:29:05Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z) - PONE: A Novel Automatic Evaluation Metric for Open-Domain Generative
Dialogue Systems [48.99561874529323]
オープンドメイン生成対話システムの評価には3つの方法がある。
体系的な比較が欠如しているため、どの指標がより効果的であるかは明らかでない。
本稿では,人間の判断との相関性を大幅に改善できる,新しい,実現可能な学習基準を提案する。
論文 参考訳(メタデータ) (2020-04-06T04:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。