論文の概要: Approximating Online Human Evaluation of Social Chatbots with Prompting
- arxiv url: http://arxiv.org/abs/2304.05253v2
- Date: Fri, 25 Aug 2023 12:58:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 17:43:24.564274
- Title: Approximating Online Human Evaluation of Social Chatbots with Prompting
- Title(参考訳): プロンプトによる社会チャットボットのオンライン評価の近似
- Authors: Ekaterina Svikhnushina and Pearl Pu
- Abstract要約: 既存の評価指標は、オフラインユーザ評価の自動化と、事前計算したダイアログの人的判断の近似を目的としている。
GPTファミリーの大規模言語モデル(LLM)を利用したオンライン人間評価の近似手法を提案する。
Prompting (DEP) に基づく新しいダイアログシステム評価フレームワークを導入し,完全な自動評価パイプラインを実現する。
- 参考スコア(独自算出の注目度): 11.657633779338724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As conversational models become increasingly available to the general public,
users are engaging with this technology in social interactions. Such
unprecedented interaction experiences may pose considerable social and
psychological risks to the users unless the technology is properly controlled.
This highlights the need for scalable and robust evaluation metrics for
conversational chatbots. Existing evaluation metrics aim to automate offline
user evaluation and approximate human judgment of pre-curated dialogs. However,
they are limited in their ability to capture subjective perceptions of users
who actually interact with the bots and might not generalize to real-world
settings. To address this limitation, we propose an approach to approximate
online human evaluation leveraging large language models (LLMs) from the GPT
family. We introduce a new Dialog system Evaluation framework based on
Prompting (DEP), which enables a fully automatic evaluation pipeline that
replicates live user studies and achieves an impressive correlation with human
judgment (up to Pearson r=0.95 on a system level). The DEP approach involves
collecting synthetic chat logs of evaluated bots with an LLM in the other-play
setting, where the LLM is carefully conditioned to follow a specific scenario.
We further explore different prompting approaches to produce evaluation scores
with the same LLM. The best performing prompts, which contain few-shot
demonstrations and instructions, show outstanding performance on the tested
dataset and demonstrate the ability to generalize to other dialog corpora.
- Abstract(参考訳): 会話モデルが一般大衆に普及するにつれて、ユーザーはこのテクノロジーをソーシャルなインタラクションで利用している。
このような前例のない対話体験は、テクノロジーが適切に制御されない限り、ユーザーにかなりの社会的および心理的リスクをもたらす可能性がある。
これは、対話型チャットボットのスケーラブルで堅牢な評価指標の必要性を強調している。
既存の評価指標は、オフラインユーザ評価の自動化と、事前計算したダイアログの人的判断の近似を目的としている。
しかし、ボットと実際に対話し、現実世界の設定に一般化しないユーザーの主観的な認識を捉える能力は限られている。
この制限に対処するため,GPTファミリーの大規模言語モデル(LLM)を利用したオンライン人文評価手法を提案する。
本稿では,実生のユーザ研究を再現し,人間の判断と印象的な相関関係(pearson r=0.95まで)を実現する,完全自動評価パイプラインを実現するプロンプト(dep)に基づく新しい対話システム評価フレームワークを提案する。
DEPアプローチでは、評価されたボットの合成チャットログを他のプレイ設定でLLMで収集する。
さらに,同じllmで評価スコアを生成するための,さまざまなプロンプトアプローチについても検討する。
数発のデモと命令を含む最高のパフォーマンスプロンプトは、テストデータセットで優れたパフォーマンスを示し、他のダイアログコーパスに一般化する能力を示している。
関連論文リスト
- Synthetic Dialogue Dataset Generation using LLM Agents [7.933485970511388]
我々は,会話エージェントとして機能するエージェントと,ユーザとして機能するエージェントを2つ開発する。
ユーザが利用できるNL4Optからの線形問題に関するテキスト記述のセットを使用して、エージェントとユーザは、元の問題記述からすべてのキー情報を取得するまで会話を行う。
我々は,人間の評価指標を再現するためにGPT-4を用いた評価手法を含む,人的および自動評価を行う。
論文 参考訳(メタデータ) (2024-01-30T21:49:30Z) - Rethinking the Evaluation for Conversational Recommendation in the Era
of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。
本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。
LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:12:43Z) - Is MultiWOZ a Solved Task? An Interactive TOD Evaluation Framework with
User Simulator [37.590563896382456]
タスク指向対話(TOD)システムのための対話型評価フレームワークを提案する。
まず,事前学習したモデルに基づいて目標指向のユーザシミュレータを構築し,ユーザシミュレータを用いて対話システムと対話して対話を生成する。
実験の結果,提案したユーザシミュレータによりトレーニングされたRLベースのTODシステムは,約98%のインフォメーションと成功率を達成することができた。
論文 参考訳(メタデータ) (2022-10-26T07:41:32Z) - Dialogue Evaluation with Offline Reinforcement Learning [2.580163308334609]
タスク指向対話システムは,自然言語対話によるユーザ目標達成を目的としている。
これらは、開発フェーズのすべてのイテレーションで達成不可能な、人間のユーザによって理想的に評価されます。
静的コーパスに基づく対話評価のためのオフライン強化学習を提案する。
論文 参考訳(メタデータ) (2022-09-02T08:32:52Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - What is wrong with you?: Leveraging User Sentiment for Automatic Dialog
Evaluation [73.03318027164605]
本稿では,次のユーザの発話から自動的に抽出できる情報をプロキシとして利用して,前のシステム応答の質を測定することを提案する。
本モデルは,実際のユーザおよび有償ユーザから収集した音声と書面の両方のオープンドメインダイアログコーパスを一般化する。
論文 参考訳(メタデータ) (2022-03-25T22:09:52Z) - User Response and Sentiment Prediction for Automatic Dialogue Evaluation [69.11124655437902]
本稿では,次のユーザ発話の感情をターンレベル評価やダイアログレベル評価に利用することを提案する。
実験により,本モデルによる音声対話データセットと音声対話データセットの両方において,既存の自動評価指標よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-11-16T22:19:17Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。