論文の概要: RADE: Reference-Assisted Dialogue Evaluation for Open-Domain Dialogue
- arxiv url: http://arxiv.org/abs/2309.08156v1
- Date: Fri, 15 Sep 2023 04:47:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 16:06:22.572708
- Title: RADE: Reference-Assisted Dialogue Evaluation for Open-Domain Dialogue
- Title(参考訳): RADE:オープンドメイン対話のための参照支援対話評価
- Authors: Zhengliang Shi, Weiwei Sun, Shuo Zhang, Zhen Zhang, Pengjie Ren,
Zhaochun Ren
- Abstract要約: マルチタスク学習フレームワークを用いた参照支援対話評価(RADE)手法を提案する。
RADEは、参照と候補のレスポンスを明示的に比較して、全体のスコアを予測する。
3つのデータセットと2つの既存のベンチマーク実験により,本手法の有効性が示された。
- 参考スコア(独自算出の注目度): 37.82954848948347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating open-domain dialogue systems is challenging for reasons such as
the one-to-many problem, i.e., many appropriate responses other than just the
golden response. As of now, automatic evaluation methods need better
consistency with humans, while reliable human evaluation can be time- and
cost-intensive. To this end, we propose the Reference-Assisted Dialogue
Evaluation (RADE) approach under the multi-task learning framework, which
leverages the pre-created utterance as reference other than the gold response
to relief the one-to-many problem. Specifically, RADE explicitly compares
reference and the candidate response to predict their overall scores. Moreover,
an auxiliary response generation task enhances prediction via a shared encoder.
To support RADE, we extend three datasets with additional rated responses other
than just a golden response by human annotation. Experiments on our three
datasets and two existing benchmarks demonstrate the effectiveness of our
method, where Pearson, Spearman, and Kendall correlations with human evaluation
outperform state-of-the-art baselines.
- Abstract(参考訳): オープンドメイン対話システムの評価は、一対多の問題、すなわちゴールデンレスポンス以外の多くの適切な応答のために困難である。
現在、自動評価手法では人間との整合性が向上し、信頼性の高い人体評価は時間と費用がかかる可能性がある。
そこで本研究では,前作成した発話を,一対多の問題を解決するための金の応答以外の基準として利用するマルチタスク学習フレームワークにおいて,参照支援対話評価(rade)手法を提案する。
具体的には、radeは参照と候補応答を明示的に比較して全体のスコアを予測する。
さらに、補助応答生成タスクは、共有エンコーダによる予測を強化する。
radeをサポートするために、3つのデータセットを拡張し、人間のアノテーションによるゴールデンレスポンス以外の評価された応答を追加します。
Pearson, Spearman, Kendallの3つのデータセットと2つの既存のベンチマーク実験により,Pearson, Spearman, Kendallの3つの手法の有効性が実証された。
関連論文リスト
- PairEval: Open-domain Dialogue Evaluation with Pairwise Comparison [38.03304773600225]
PairEvalは、異なる会話における応答と品質を比較して応答を評価するための、新しい対話評価指標である。
PairEvalは基準値よりも人間の判断と高い相関を示すことを示す。
また,提案手法は,オープンドメイン対話システムからの共通障害の検出において,より堅牢であることがわかった。
論文 参考訳(メタデータ) (2024-04-01T09:35:06Z) - PICK: Polished & Informed Candidate Scoring for Knowledge-Grounded
Dialogue Systems [59.1250765143521]
現在の知識接地対話システムは、生成された応答を人間に好まれる品質に合わせるのに失敗することが多い。
我々は,世代別再描画フレームワークであるPolseed & Informed Candidate Scoring (PICK)を提案する。
対話履歴に関連性を維持しつつ,より忠実な応答を生成するためのPICKの有効性を示す。
論文 参考訳(メタデータ) (2023-09-19T08:27:09Z) - Reranking Overgenerated Responses for End-to-End Task-Oriented Dialogue
Systems [71.33737787564966]
エンド・ツー・エンド(E2E)タスク指向対話システム(ToD)は、いわゆる「いいね!
本稿では,システムによって当初過剰に生成された応答リストから高品質な項目を選択する方法を提案する。
本研究では,最先端のE2E ToDシステムを2.4BLEU,3.2ROUGE,2.8 METEORで改善し,新たなピーク値を得た。
論文 参考訳(メタデータ) (2022-11-07T15:59:49Z) - A Systematic Evaluation of Response Selection for Open Domain Dialogue [36.88551817451512]
同じダイアログで生成された複数の応答生成元からの応答を、適切な(正)と不適切な(負)として手動でアノテートするデータセットをキュレートした。
反応選択のための最先端手法の体系的評価を行い、複数の正の候補を用いたり、手動で検証された強陰性候補を用いたりすることで、それぞれRecall@1スコアの3%と13%の増加など、相手のトレーニングデータを用いた場合と比較して、大幅な性能向上が期待できることを示す。
論文 参考訳(メタデータ) (2022-08-08T19:33:30Z) - WeaSuL: Weakly Supervised Dialogue Policy Learning: Reward Estimation
for Multi-turn Dialogue [17.663449579168297]
エージェントとユーザ(教師付き学習目標を持つエージェントに類似したモデル化)の対話をシミュレートし、相互に対話する。
エージェントは動的ブロッキングを使用して、ランク付けされた多様な応答と探索-探索を生成し、トップK応答の中から選択する。
2つのベンチマークによる実証研究は、我々のモデルが応答品質を著しく上回り、会話の成功につながることを示唆している。
論文 参考訳(メタデータ) (2021-08-01T08:00:45Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Dialogue Response Ranking Training with Large-Scale Human Feedback Data [52.12342165926226]
ソーシャルメディアのフィードバックデータを利用して、フィードバック予測のための大規模なトレーニングデータセットを構築します。
我々は,1300万対の人間のフィードバックデータに基づくGPT-2モデルであるDialogRPTを訓練した。
我々のランキングは、Redditのフィードバックを予測する上で、従来のダイアログの難易度ベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-15T10:50:05Z) - Multi-Stage Conversational Passage Retrieval: An Approach to Fusing Term
Importance Estimation and Neural Query Rewriting [56.268862325167575]
マルチステージアドホックIRシステムにクエリ再構成を組み込んだ会話経路検索(ConvPR)に取り組む。
本稿では,1項の重要度推定と2項のニューラルクエリ書き換えという2つの手法を提案する。
前者に対しては、周波数に基づく信号を用いて会話コンテキストから抽出した重要な用語を用いて会話クエリを拡張する。
後者では,会話クエリを,事前訓練されたシーケンス列列列モデルを用いて,自然な,スタンドアロンの,人間の理解可能なクエリに再構成する。
論文 参考訳(メタデータ) (2020-05-05T14:30:20Z) - Designing Precise and Robust Dialogue Response Evaluators [35.137244385158034]
我々は,参照自由評価器を構築し,半教師付きトレーニングと事前訓練言語モデルのパワーを活用することを提案する。
実験結果から,提案した評価器は人的判断と強い相関(>0.6)を達成できることが示された。
論文 参考訳(メタデータ) (2020-04-10T04:59:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。