論文の概要: Rewarding Chatbots for Real-World Engagement with Millions of Users
- arxiv url: http://arxiv.org/abs/2303.06135v2
- Date: Thu, 30 Mar 2023 18:28:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 16:41:33.145415
- Title: Rewarding Chatbots for Real-World Engagement with Millions of Users
- Title(参考訳): 数百万人のユーザによるリアルタイムエンゲージメントのためのチャットボットのリワード
- Authors: Robert Irvine, Douglas Boubert, Vyas Raina, Adian Liusie, Ziyi Zhu,
Vineet Mudupalli, Aliaksei Korshuk, Zongyi Liu, Fritz Cremer, Valentin
Assassi, Christie-Carol Beauchamp, Xiaoding Lu, Thomas Rialan, William
Beauchamp
- Abstract要約: 本研究では,ユーザエンゲージメントを優先して保持性を高めるソーシャルチャットボットの開発について検討する。
提案手法では,ユーザインタラクションから収集した擬似ラベルを用いて報酬モデルのトレーニングを行う。
Chai Researchプラットフォーム上の1万人のデイリーチャットユーザを対象としたA/Bテストは、このアプローチがMCLを最大70%向上させることを示している。
今後の作業は、報酬モデルを使用してデータフライホイールを実現し、最新のユーザ会話を使用して、言語モデルと報酬モデルを交互に微調整することを目的としている。
- 参考スコア(独自算出の注目度): 1.2583983802175422
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of pretrained large language models has led to the deployment
of a range of social chatbots for chitchat. Although these chatbots demonstrate
language ability and fluency, they are not guaranteed to be engaging and can
struggle to retain users. This work investigates the development of social
chatbots that prioritize user engagement to enhance retention, specifically
examining the use of human feedback to efficiently develop highly engaging
chatbots. The proposed approach uses automatic pseudo-labels collected from
user interactions to train a reward model that can be used to reject
low-scoring sample responses generated by the chatbot model at inference time.
Intuitive evaluation metrics, such as mean conversation length (MCL), are
introduced as proxies to measure the level of engagement of deployed chatbots.
A/B testing on groups of 10,000 new daily chatbot users on the Chai Research
platform shows that this approach increases the MCL by up to 70%, which
translates to a more than 30% increase in user retention for a GPT-J 6B model.
Future work aims to use the reward model to realise a data fly-wheel, where the
latest user conversations can be used to alternately fine-tune the language
model and the reward model.
- Abstract(参考訳): 事前訓練された大きな言語モデルの出現は、chitchatのための様々なソーシャルチャットボットの展開につながった。
これらのチャットボットは、言語能力と流用度を示すが、ユーザをエンゲージすることが保証されておらず、ユーザを維持するのに苦労する。
本研究では、ユーザエンゲージメントを優先して保持性を高めるソーシャルチャットボットの開発について検討し、特に高機能チャットボットを効率的に開発するためのヒューマンフィードバックの利用について検討する。
提案手法では,ユーザのインタラクションから収集した擬似ラベルを自動生成し,チャットボットモデルが生成したサンプル応答を推論時に拒否する報酬モデルをトレーニングする。
平均会話長(MCL)などの直感的評価指標がプロキシとして導入され、デプロイされたチャットボットのエンゲージメントのレベルを測定する。
Chai Researchプラットフォーム上の1万人の毎日のチャットボットユーザを対象にしたA/Bテストでは、このアプローチがMCLを最大70%増加させ、GPT-J 6Bモデルのユーザ保持率を30%以上向上させた。
今後の作業は、報酬モデルを使用してデータフライホイールを実現し、最新のユーザ会話を使用して、言語モデルと報酬モデルを交互に微調整することを目的としている。
関連論文リスト
- LLM Roleplay: Simulating Human-Chatbot Interaction [52.03241266241294]
本研究では,人間とチャットボットの対話をシミュレートする多元多元対話を自動生成する,目標指向のペルソナに基づく手法を提案する。
本手法は,人間とチャットボットの対話を高い相違率でシミュレートすることができる。
論文 参考訳(メタデータ) (2024-07-04T14:49:46Z) - WildChat: 1M ChatGPT Interaction Logs in the Wild [88.05964311416717]
WildChatは100万件のユーザー・チャットGPT会話のコーパスで、250万回以上のインタラクション・ターンで構成されている。
タイムスタンプによるチャットの書き起こしに加えて、州、国、ハッシュIPアドレスを含む人口統計データでデータセットを豊かにします。
論文 参考訳(メタデータ) (2024-05-02T17:00:02Z) - Prompted LLMs as Chatbot Modules for Long Open-domain Conversation [7.511596831927614]
MPCは、微調整を必要とせず、高品質な会話エージェントを作成するための新しいアプローチである。
本手法は,長期的一貫性と柔軟性のために,事前訓練された大規模言語モデル(LLM)を個別モジュールとして利用する。
論文 参考訳(メタデータ) (2023-05-08T08:09:00Z) - Baize: An Open-Source Chat Model with Parameter-Efficient Tuning on
Self-Chat Data [101.63682141248069]
ChatGPTのようなチャットモデルは印象的な機能を示しており、多くのドメインで急速に採用されている。
本稿では,ChatGPTを利用して,高品質なマルチターンチャットコーパスを自動生成するパイプラインを提案する。
我々は,オープンソースの大規模言語モデルであるLLaMAを強化するために,パラメータ効率のチューニングを用いる。
論文 参考訳(メタデータ) (2023-04-03T17:59:09Z) - Leveraging Large Language Models to Power Chatbots for Collecting User
Self-Reported Data [15.808841433843742]
大きな言語モデル(LLM)は、自然言語のプロンプトを受け入れてチャットボットを構築する新しい方法を提供する。
我々は,チャットボットが自然に会話し,データを確実に収集する上で,プロンプトの設計要因について検討する。
論文 参考訳(メタデータ) (2023-01-14T07:29:36Z) - Training Conversational Agents with Generative Conversational Networks [74.9941330874663]
我々は、生成会話ネットワークを使用して、自動的にデータを生成し、社会的会話エージェントを訓練する。
自動メトリクスと人的評価器を用いてTopicalChatのアプローチを評価し、10%のシードデータで100%のデータを使用するベースラインに近いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-15T21:46:39Z) - Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn
Chatbot Responding with Intention [55.77218465471519]
本稿では,チャットボットに人間のような意図を持つための革新的なフレームワークを提案する。
我々のフレームワークには、ガイドロボットと人間の役割を担うインターロケータモデルが含まれていた。
本フレームワークを3つの実験的なセットアップを用いて検討し,4つの異なる指標を用いた誘導ロボットの評価を行い,柔軟性と性能の利点を実証した。
論文 参考訳(メタデータ) (2021-03-30T15:24:37Z) - Learning Improvised Chatbots from Adversarial Modifications of Natural
Language Feedback [19.026954124876582]
本稿では,雑音フィードバックを会話中の自然な応答に変換する生成逆モデルを提案する。
ジェネレータの目標は、ユーザの以前の発話に応答する応答にフィードバックを変換し、差別者を騙すことである。
論文 参考訳(メタデータ) (2020-10-14T17:33:37Z) - Pchatbot: A Large-Scale Dataset for Personalized Chatbot [49.16746174238548]
本稿では,Weibo と Judicial のフォーラムから収集した2つのサブセットを含む大規模対話データセットである Pchatbot を紹介する。
生データセットを対話システムに適応させるため、匿名化などのプロセスを通じて生データセットを精巧に正規化する。
Pchatbotのスケールは、既存の中国のデータセットよりも大幅に大きく、データ駆動モデルの恩恵を受ける可能性がある。
論文 参考訳(メタデータ) (2020-09-28T12:49:07Z) - Personalized Chatbot Trustworthiness Ratings [19.537492400265577]
我々は、各問題に対する個別の格付けモジュールに依存するチャットボットのためのパーソナライズされた格付け手法を構想する。
この方法は、特定の信頼問題とは独立しており、集計手順にパラメトリックである。
論文 参考訳(メタデータ) (2020-05-13T22:42:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。