論文の概要: Approximating Human Evaluation of Social Chatbots with Prompting
- arxiv url: http://arxiv.org/abs/2304.05253v1
- Date: Tue, 11 Apr 2023 14:45:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 14:34:35.181333
- Title: Approximating Human Evaluation of Social Chatbots with Prompting
- Title(参考訳): プロンプトによる社会チャットボットの人間評価の近似
- Authors: Ekaterina Svikhnushina and Pearl Pu
- Abstract要約: 本稿では,対話システムの評価をプロンプトで行うための新しいフレームワークについて述べる。
基本的なコンセプトは、評価されたボットの合成チャットログを、他のプレイ設定でLLMで収集することである。
数少ないショーデモとインストラクションを含む最高のパフォーマンスプロンプトは、テストされたデータセットで優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 3.4012007729454816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Once powerful conversational models have become available for a wide
audience, users started actively engaging in social interactions with this
technology. Such unprecedented interaction experiences may pose considerable
social and psychological risks to the users unless the technology is properly
controlled. This creates an urgent need for scalable and robust evaluation
metrics for conversational chatbots. Existing automatic evaluation metrics
usually focus on objective quality measures and disregard subjective
perceptions of social dimensions. Moreover, most of these approaches operate on
pre-produced dialogs from available benchmark corpora, which implies human
involvement for preparing the material for evaluation and, thus, impeded
scalability of the metrics. To address this limitation, we propose to make use
of the emerging large language models (LLMs) from the GPT-family and describe a
new framework allowing to conduct dialog system evaluation with prompting. With
this framework, we are able to achieve full automation of the evaluation
pipeline and reach impressive correlation with the human judgement (up to
Pearson r=0.95 on system level). The underlying concept is to collect synthetic
chat logs of evaluated bots with a LLM in the other-play setting, where LLM is
carefully conditioned to follow a specific scenario. We further explore
different prompting approaches to produce evaluation scores with the same LLM.
The best-performing prompts, containing few-show demonstrations and
instructions, show outstanding performance on the tested dataset and
demonstrate the ability to generalize to other dialog corpora.
- Abstract(参考訳): 強力な対話モデルが広く利用できるようになると、ユーザはこの技術とのソーシャルな交流に積極的に取り組み始めた。
このような前例のない対話体験は、テクノロジーが適切に制御されない限り、ユーザーにかなりの社会的および心理的リスクをもたらす可能性がある。
これにより、会話型チャットボットのためのスケーラブルで堅牢な評価メトリクスが緊急に必要となる。
既存の自動評価指標は、通常、客観的な品質指標と社会的次元の主観的な知覚を無視している。
さらに、これらのアプローチのほとんどは、利用可能なベンチマークコーパスから事前に生成されたダイアログで動作し、評価のための材料の作成に人間が関与することを示し、メトリクスのスケーラビリティを阻害する。
この制限に対処するため,GPTファミリーからの新たな大規模言語モデル(LLM)の利用を提案し,プロンプトによる対話システム評価を行うための新しいフレームワークについて述べる。
このフレームワークにより、評価パイプラインの完全な自動化を実現し、人間の判断と印象的な相関(システムレベルではPearson r=0.95まで)に達することができる。
基本的なコンセプトは、評価されたボットの合成チャットログを、LLMが特定のシナリオに従うように慎重に調整された他のプレイ設定でLLMで収集することである。
さらに,同じllmで評価スコアを生成するための,さまざまなプロンプトアプローチについても検討する。
数少ないショーデモとインストラクションを含む最高のパフォーマンスプロンプトは、テストデータセットで優れたパフォーマンスを示し、他のダイアログコーパスに一般化する能力を示している。
関連論文リスト
- Synthetic Dialogue Dataset Generation using LLM Agents [7.933485970511388]
我々は,会話エージェントとして機能するエージェントと,ユーザとして機能するエージェントを2つ開発する。
ユーザが利用できるNL4Optからの線形問題に関するテキスト記述のセットを使用して、エージェントとユーザは、元の問題記述からすべてのキー情報を取得するまで会話を行う。
我々は,人間の評価指標を再現するためにGPT-4を用いた評価手法を含む,人的および自動評価を行う。
論文 参考訳(メタデータ) (2024-01-30T21:49:30Z) - Rethinking the Evaluation for Conversational Recommendation in the Era
of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。
本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。
LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:12:43Z) - Is MultiWOZ a Solved Task? An Interactive TOD Evaluation Framework with
User Simulator [37.590563896382456]
タスク指向対話(TOD)システムのための対話型評価フレームワークを提案する。
まず,事前学習したモデルに基づいて目標指向のユーザシミュレータを構築し,ユーザシミュレータを用いて対話システムと対話して対話を生成する。
実験の結果,提案したユーザシミュレータによりトレーニングされたRLベースのTODシステムは,約98%のインフォメーションと成功率を達成することができた。
論文 参考訳(メタデータ) (2022-10-26T07:41:32Z) - Dialogue Evaluation with Offline Reinforcement Learning [2.580163308334609]
タスク指向対話システムは,自然言語対話によるユーザ目標達成を目的としている。
これらは、開発フェーズのすべてのイテレーションで達成不可能な、人間のユーザによって理想的に評価されます。
静的コーパスに基づく対話評価のためのオフライン強化学習を提案する。
論文 参考訳(メタデータ) (2022-09-02T08:32:52Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - What is wrong with you?: Leveraging User Sentiment for Automatic Dialog
Evaluation [73.03318027164605]
本稿では,次のユーザの発話から自動的に抽出できる情報をプロキシとして利用して,前のシステム応答の質を測定することを提案する。
本モデルは,実際のユーザおよび有償ユーザから収集した音声と書面の両方のオープンドメインダイアログコーパスを一般化する。
論文 参考訳(メタデータ) (2022-03-25T22:09:52Z) - User Response and Sentiment Prediction for Automatic Dialogue Evaluation [69.11124655437902]
本稿では,次のユーザ発話の感情をターンレベル評価やダイアログレベル評価に利用することを提案する。
実験により,本モデルによる音声対話データセットと音声対話データセットの両方において,既存の自動評価指標よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-11-16T22:19:17Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。