論文の概要: Bipartite-play Dialogue Collection for Practical Automatic Evaluation of
Dialogue Systems
- arxiv url: http://arxiv.org/abs/2211.10596v1
- Date: Sat, 19 Nov 2022 06:12:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 19:30:15.399574
- Title: Bipartite-play Dialogue Collection for Practical Automatic Evaluation of
Dialogue Systems
- Title(参考訳): 対話システムの自動評価のためのバイパートプレイ対話コレクション
- Authors: Shiki Sato, Yosuke Kishinami, Hiroaki Sugiyama, Reina Akama, Ryoko
Tokuhisa, Jun Suzuki
- Abstract要約: 本稿では,対話システム評価を自動化する対話収集手法であるバイパート・プレイ法を提案する。
既存の対話収集手法の限界に対処する。
実験結果から,バイパートリープレイ方式による自動評価は,これらの2つの欠点を軽減できることがわかった。
- 参考スコア(独自算出の注目度): 17.532851422548354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automation of dialogue system evaluation is a driving force for the efficient
development of dialogue systems. This paper introduces the bipartite-play
method, a dialogue collection method for automating dialogue system evaluation.
It addresses the limitations of existing dialogue collection methods: (i)
inability to compare with systems that are not publicly available, and (ii)
vulnerability to cheating by intentionally selecting systems to be compared.
Experimental results show that the automatic evaluation using the
bipartite-play method mitigates these two drawbacks and correlates as strongly
with human subjectivity as existing methods.
- Abstract(参考訳): 対話システム評価の自動化は対話システムの効率的な開発のための原動力である。
本稿では,対話システム評価を自動化する対話収集手法であるbipartite-play法を提案する。
既存の対話収集メソッドの制限に対処する。
(i)公開されていないシステムと比較できないこと、
(ii)比較対象のシステムを意図的に選択することによる不正行為の脆弱性。
実験結果から,バイパルタイト・プレイ法による自動評価はこれらの2つの欠点を軽減し,従来の方法と強く相関していることがわかった。
関連論文リスト
- Don't Forget Your ABC's: Evaluating the State-of-the-Art in
Chat-Oriented Dialogue Systems [12.914512702731528]
本稿では,対話システムの挙動を推定する新しい人的評価手法を提案する。
提案手法は,4つの最先端なオープンドメイン対話システムの評価と既存手法との比較に用いられている。
論文 参考訳(メタデータ) (2022-12-18T22:07:55Z) - User Response and Sentiment Prediction for Automatic Dialogue Evaluation [69.11124655437902]
本稿では,次のユーザ発話の感情をターンレベル評価やダイアログレベル評価に利用することを提案する。
実験により,本モデルによる音声対話データセットと音声対話データセットの両方において,既存の自動評価指標よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-11-16T22:19:17Z) - DynaEval: Unifying Turn and Dialogue Level Evaluation [60.66883575106898]
統合された自動評価フレームワークDynaEvalを提案する。
ターンレベルの評価を行うことができるが、対話全体の品質を公平に考慮することもできる。
実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-06-02T12:23:18Z) - Assessing Dialogue Systems with Distribution Distances [48.61159795472962]
そこで本研究では,対話と実世界の会話の分散的距離を計算し,対話システムの性能を計測する。
複数の対話コーパスを用いた実験により,提案手法は既存の指標よりも人間の判断によく相関することが示された。
論文 参考訳(メタデータ) (2021-05-06T10:30:13Z) - Towards Unified Dialogue System Evaluation: A Comprehensive Analysis of
Current Evaluation Protocols [17.14709845342071]
現状では、チャット指向対話管理システムを評価するための様々な評価プロトコルが提案されている。
本稿では,対話システムにおける自動評価手法と人的評価手法の総合的な合成について述べる。
論文 参考訳(メタデータ) (2020-06-10T23:29:05Z) - Rethinking Dialogue State Tracking with Reasoning [76.0991910623001]
本稿では, 対話状態の段階的追跡を, バックエンドデータの助けを借りて行うことを提案する。
実験の結果,MultiWOZ 2.1の連立信条精度は38.6%向上した。
論文 参考訳(メタデータ) (2020-05-27T02:05:33Z) - Is Your Goal-Oriented Dialog Model Performing Really Well? Empirical
Analysis of System-wise Evaluation [114.48767388174218]
本稿では,異なる設定の異なるモジュールから構成される異なるダイアログシステムについて,実験的検討を行った。
この結果から, 粗粒度ラベルで学習した連系や終端モデルを用いたシステムよりも, 細粒度監視信号を用いて訓練したパイプラインダイアログシステムの方が, 高い性能が得られることが示唆された。
論文 参考訳(メタデータ) (2020-05-15T05:20:06Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。