論文の概要: Evaluating Dialogue Generation Systems via Response Selection
- arxiv url: http://arxiv.org/abs/2004.14302v1
- Date: Wed, 29 Apr 2020 16:21:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 13:51:51.996433
- Title: Evaluating Dialogue Generation Systems via Response Selection
- Title(参考訳): 応答選択による対話生成システムの評価
- Authors: Shiki Sato, Reina Akama, Hiroki Ouchi, Jun Suzuki, Kentaro Inui
- Abstract要約: 提案手法では, 提案手法を用いて, 提案手法を検証し, 提案手法を提案する。
本研究では,本手法によって開発されたテストセットによる応答選択によるシステム評価が,人間による評価と強く相関していることを示す。
- 参考スコア(独自算出の注目度): 42.56640173047927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing automatic evaluation metrics for open-domain dialogue response
generation systems correlate poorly with human evaluation. We focus on
evaluating response generation systems via response selection. To evaluate
systems properly via response selection, we propose the method to construct
response selection test sets with well-chosen false candidates. Specifically,
we propose to construct test sets filtering out some types of false candidates:
(i) those unrelated to the ground-truth response and (ii) those acceptable as
appropriate responses. Through experiments, we demonstrate that evaluating
systems via response selection with the test sets developed by our method
correlates more strongly with human evaluation, compared with widely used
automatic evaluation metrics such as BLEU.
- Abstract(参考訳): オープンドメイン対話応答生成システムにおける既存の評価指標は人的評価と相関が低い。
応答選択による応答生成システムの評価に注目する。
応答選択を適切に評価するために, 応答選択テストセットを構成する手法を提案する。
具体的には,いくつかの偽候補をフィルタリングするテストセットを構築することを提案する。
(i)地対地反応に無関係な者、及び
(ii)適切な回答として受け入れられる者
実験により,本手法で開発したテストセットを用いた応答選択による評価システムは,bleuなどの広く使われている自動評価指標と比較して,人間評価に強く相関することを示した。
関連論文リスト
- PairEval: Open-domain Dialogue Evaluation with Pairwise Comparison [38.03304773600225]
PairEvalは、異なる会話における応答と品質を比較して応答を評価するための、新しい対話評価指標である。
PairEvalは基準値よりも人間の判断と高い相関を示すことを示す。
また,提案手法は,オープンドメイン対話システムからの共通障害の検出において,より堅牢であることがわかった。
論文 参考訳(メタデータ) (2024-04-01T09:35:06Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - PICK: Polished & Informed Candidate Scoring for Knowledge-Grounded
Dialogue Systems [59.1250765143521]
現在の知識接地対話システムは、生成された応答を人間に好まれる品質に合わせるのに失敗することが多い。
我々は,世代別再描画フレームワークであるPolseed & Informed Candidate Scoring (PICK)を提案する。
対話履歴に関連性を維持しつつ,より忠実な応答を生成するためのPICKの有効性を示す。
論文 参考訳(メタデータ) (2023-09-19T08:27:09Z) - Reranking Overgenerated Responses for End-to-End Task-Oriented Dialogue
Systems [71.33737787564966]
エンド・ツー・エンド(E2E)タスク指向対話システム(ToD)は、いわゆる「いいね!
本稿では,システムによって当初過剰に生成された応答リストから高品質な項目を選択する方法を提案する。
本研究では,最先端のE2E ToDシステムを2.4BLEU,3.2ROUGE,2.8 METEORで改善し,新たなピーク値を得た。
論文 参考訳(メタデータ) (2022-11-07T15:59:49Z) - Pneg: Prompt-based Negative Response Generation for Dialogue Response
Selection Task [27.513992470527427]
検索に基づく対話システムでは、応答選択モデルがランサーとして機能し、複数の候補の中から最も適切な応答を選択する。
近年の研究では, 対向応答を負のトレーニングサンプルとして活用することは, 選択モデルの識別能力を向上させるのに有用であることが示されている。
本稿では,大規模言語モデルを利用した対向的負の応答を簡易に,かつ効率的に生成する手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T11:49:49Z) - A Systematic Evaluation of Response Selection for Open Domain Dialogue [36.88551817451512]
同じダイアログで生成された複数の応答生成元からの応答を、適切な(正)と不適切な(負)として手動でアノテートするデータセットをキュレートした。
反応選択のための最先端手法の体系的評価を行い、複数の正の候補を用いたり、手動で検証された強陰性候補を用いたりすることで、それぞれRecall@1スコアの3%と13%の増加など、相手のトレーニングデータを用いた場合と比較して、大幅な性能向上が期待できることを示す。
論文 参考訳(メタデータ) (2022-08-08T19:33:30Z) - Generate, Evaluate, and Select: A Dialogue System with a Response
Evaluator for Diversity-Aware Response Generation [9.247397520986999]
現在の対話システムにおける多様性の欠如を克服することを目的としている。
本稿では,応答生成器が生成する複数の応答を評価するジェネレータ・評価器モデルを提案する。
我々は,提案システムとベースラインシステムの出力を比較するために人的評価を行う。
論文 参考訳(メタデータ) (2022-06-10T08:22:22Z) - What is wrong with you?: Leveraging User Sentiment for Automatic Dialog
Evaluation [73.03318027164605]
本稿では,次のユーザの発話から自動的に抽出できる情報をプロキシとして利用して,前のシステム応答の質を測定することを提案する。
本モデルは,実際のユーザおよび有償ユーザから収集した音声と書面の両方のオープンドメインダイアログコーパスを一般化する。
論文 参考訳(メタデータ) (2022-03-25T22:09:52Z) - User Response and Sentiment Prediction for Automatic Dialogue Evaluation [69.11124655437902]
本稿では,次のユーザ発話の感情をターンレベル評価やダイアログレベル評価に利用することを提案する。
実験により,本モデルによる音声対話データセットと音声対話データセットの両方において,既存の自動評価指標よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-11-16T22:19:17Z) - Designing Precise and Robust Dialogue Response Evaluators [35.137244385158034]
我々は,参照自由評価器を構築し,半教師付きトレーニングと事前訓練言語モデルのパワーを活用することを提案する。
実験結果から,提案した評価器は人的判断と強い相関(>0.6)を達成できることが示された。
論文 参考訳(メタデータ) (2020-04-10T04:59:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。