論文の概要: Dialogue Evaluation with Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2209.00876v1
- Date: Fri, 2 Sep 2022 08:32:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-05 12:28:14.682022
- Title: Dialogue Evaluation with Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習による対話評価
- Authors: Nurul Lubis, Christian Geishauser, Hsien-Chin Lin, Carel van Niekerk,
Michael Heck, Shutong Feng, Milica Ga\v{s}i\'c
- Abstract要約: タスク指向対話システムは,自然言語対話によるユーザ目標達成を目的としている。
これらは、開発フェーズのすべてのイテレーションで達成不可能な、人間のユーザによって理想的に評価されます。
静的コーパスに基づく対話評価のためのオフライン強化学習を提案する。
- 参考スコア(独自算出の注目度): 2.580163308334609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Task-oriented dialogue systems aim to fulfill user goals through natural
language interactions. They are ideally evaluated with human users, which
however is unattainable to do at every iteration of the development phase.
Simulated users could be an alternative, however their development is
nontrivial. Therefore, researchers resort to offline metrics on existing
human-human corpora, which are more practical and easily reproducible. They are
unfortunately limited in reflecting real performance of dialogue systems. BLEU
for instance is poorly correlated with human judgment, and existing
corpus-based metrics such as success rate overlook dialogue context mismatches.
There is still a need for a reliable metric for task-oriented systems with good
generalization and strong correlation with human judgements. In this paper, we
propose the use of offline reinforcement learning for dialogue evaluation based
on a static corpus. Such an evaluator is typically called a critic and utilized
for policy optimization. We go one step further and show that offline RL
critics can be trained on a static corpus for any dialogue system as external
evaluators, allowing dialogue performance comparisons across various types of
systems. This approach has the benefit of being corpus- and model-independent,
while attaining strong correlation with human judgements, which we confirm via
an interactive user trial.
- Abstract(参考訳): タスク指向対話システムは,自然言語対話によるユーザ目標達成を目的としている。
理想的には、人間ユーザによって評価されるが、開発フェーズの各イテレーションで実施することは不可能である。
シミュレートされたユーザーも選択肢になり得るが、その開発は自明ではない。
そのため、研究者は、より実用的で容易に再現可能な既存のヒトコーパスのオフラインメトリクスを利用する。
残念ながら、それらは対話システムの実際のパフォーマンスを反映して制限されている。
例えばBLEUは人間の判断と相関が低く、成功率などの既存のコーパスベースのメトリクスは、会話コンテキストのミスマッチを無視する。
優れた一般化と人的判断との強い相関を持つタスク指向システムには信頼性のある計量が必要である。
本稿では,静的コーパスに基づく対話評価におけるオフライン強化学習の利用を提案する。
このような評価は一般に批評家と呼ばれ、政策最適化に利用される。
さらに、オフラインのRL評論家が外部評価器として任意の対話システムに対して静的コーパスでトレーニングできることを示し、様々な種類のシステム間での対話性能の比較を可能にする。
このアプローチは、コーパスとモデル非依存であると同時に、人間判断との強い相関を、インタラクティブなユーザトライアルで確認することができる。
関連論文リスト
- Approximating Online Human Evaluation of Social Chatbots with Prompting [11.657633779338724]
既存の評価指標は、オフラインユーザ評価の自動化と、事前計算したダイアログの人的判断の近似を目的としている。
GPTファミリーの大規模言語モデル(LLM)を利用したオンライン人間評価の近似手法を提案する。
Prompting (DEP) に基づく新しいダイアログシステム評価フレームワークを導入し,完全な自動評価パイプラインを実現する。
論文 参考訳(メタデータ) (2023-04-11T14:45:01Z) - Don't Forget Your ABC's: Evaluating the State-of-the-Art in
Chat-Oriented Dialogue Systems [12.914512702731528]
本稿では,対話システムの挙動を推定する新しい人的評価手法を提案する。
提案手法は,4つの最先端なオープンドメイン対話システムの評価と既存手法との比較に用いられている。
論文 参考訳(メタデータ) (2022-12-18T22:07:55Z) - CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement
Learning [85.3987745097806]
オフライン強化学習は、人間の話者から収集された静的データセットを使用して、対話エージェントをトレーニングするために使用することができる。
実験により,最近開発されたオフラインRL手法と言語モデルを組み合わせることで,現実的な対話エージェントが得られることが示された。
論文 参考訳(メタデータ) (2022-04-18T17:43:21Z) - DynaEval: Unifying Turn and Dialogue Level Evaluation [60.66883575106898]
統合された自動評価フレームワークDynaEvalを提案する。
ターンレベルの評価を行うことができるが、対話全体の品質を公平に考慮することもできる。
実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-06-02T12:23:18Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Is Your Goal-Oriented Dialog Model Performing Really Well? Empirical
Analysis of System-wise Evaluation [114.48767388174218]
本稿では,異なる設定の異なるモジュールから構成される異なるダイアログシステムについて,実験的検討を行った。
この結果から, 粗粒度ラベルで学習した連系や終端モデルを用いたシステムよりも, 細粒度監視信号を用いて訓練したパイプラインダイアログシステムの方が, 高い性能が得られることが示唆された。
論文 参考訳(メタデータ) (2020-05-15T05:20:06Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z) - You Impress Me: Dialogue Generation via Mutual Persona Perception [62.89449096369027]
認知科学の研究は、理解が高品質なチャット会話に不可欠なシグナルであることを示唆している。
そこで我々は,P2 Botを提案する。このP2 Botは,理解を明示的にモデル化することを目的とした送信機受信者ベースのフレームワークである。
論文 参考訳(メタデータ) (2020-04-11T12:51:07Z) - Designing Precise and Robust Dialogue Response Evaluators [35.137244385158034]
我々は,参照自由評価器を構築し,半教師付きトレーニングと事前訓練言語モデルのパワーを活用することを提案する。
実験結果から,提案した評価器は人的判断と強い相関(>0.6)を達成できることが示された。
論文 参考訳(メタデータ) (2020-04-10T04:59:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。