論文の概要: Learning Improvised Chatbots from Adversarial Modifications of Natural
Language Feedback
- arxiv url: http://arxiv.org/abs/2010.07261v2
- Date: Thu, 15 Oct 2020 02:19:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 12:17:25.056143
- Title: Learning Improvised Chatbots from Adversarial Modifications of Natural
Language Feedback
- Title(参考訳): 自然言語フィードバックの逆修正によるチャットボットの学習
- Authors: Makesh Narsimhan Sreedhar, Kun Ni, Siva Reddy
- Abstract要約: 本稿では,雑音フィードバックを会話中の自然な応答に変換する生成逆モデルを提案する。
ジェネレータの目標は、ユーザの以前の発話に応答する応答にフィードバックを変換し、差別者を騙すことである。
- 参考スコア(独自算出の注目度): 19.026954124876582
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ubiquitous nature of chatbots and their interaction with users generate
an enormous amount of data. Can we improve chatbots using this data? A
self-feeding chatbot improves itself by asking natural language feedback when a
user is dissatisfied with its response and uses this feedback as an additional
training sample. However, user feedback in most cases contains extraneous
sequences hindering their usefulness as a training sample. In this work, we
propose a generative adversarial model that converts noisy feedback into a
plausible natural response in a conversation. The generator's goal is to
convert the feedback into a response that answers the user's previous utterance
and to fool the discriminator which distinguishes feedback from natural
responses. We show that augmenting original training data with these modified
feedback responses improves the original chatbot performance from 69.94% to
75.96% in ranking correct responses on the Personachat dataset, a large
improvement given that the original model is already trained on 131k samples.
- Abstract(参考訳): チャットボットのユビキタスな性質とユーザとのインタラクションは、膨大なデータを生成します。
このデータを使ってチャットボットを改善できますか?
自給自足チャットボットは、ユーザが応答に不満を抱いたときに自然言語フィードバックを求め、このフィードバックを追加のトレーニングサンプルとして使用することにより、自己改善を図る。
しかし、多くの場合、ユーザーフィードバックにはトレーニングサンプルとしての有用性を妨げる外部シーケンスが含まれている。
そこで本研究では,会話中の雑音フィードバックを自然な応答に変換する生成的会話モデルを提案する。
ジェネレータの目標は、ユーザの以前の発話に応答する応答にフィードバックを変換し、自然な応答からフィードバックを区別する判別器を騙すことである。
これらの修正されたフィードバック応答によるトレーニングデータの強化は、Personachatデータセット上での正しいレスポンスのランク付けにおいて、元のチャットボットのパフォーマンスを69.94%から75.96%に向上させる。
関連論文リスト
- Learning from Naturally Occurring Feedback [25.266461597402056]
チャットモデルと対話する際にユーザが自然に含むフィードバックを抽出するスケーラブルな方法を提案する。
我々は,自然に発生するフィードバックの存在を確認するために,会話データを手動でアノテートした。
100万件以上の会話に本手法を適用し,数十万件のフィードバックサンプルを得た。
論文 参考訳(メタデータ) (2024-07-15T17:41:34Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。
提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。
生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文 参考訳(メタデータ) (2023-08-21T17:59:02Z) - Leveraging Implicit Feedback from Deployment Data in Dialogue [83.02878726357523]
本研究では,ユーザ間の自然な対話とデプロイモデルから学習することで,社会的会話エージェントの改善について検討する。
我々は、ユーザ応答長、感情、未来の人間の発話の反応などの信号を、収集された対話エピソードで活用する。
論文 参考訳(メタデータ) (2023-07-26T11:34:53Z) - Rewarding Chatbots for Real-World Engagement with Millions of Users [1.2583983802175422]
本研究では,ユーザエンゲージメントを優先して保持性を高めるソーシャルチャットボットの開発について検討する。
提案手法では,ユーザインタラクションから収集した擬似ラベルを用いて報酬モデルのトレーニングを行う。
Chai Researchプラットフォーム上の1万人のデイリーチャットユーザを対象としたA/Bテストは、このアプローチがMCLを最大70%向上させることを示している。
今後の作業は、報酬モデルを使用してデータフライホイールを実現し、最新のユーザ会話を使用して、言語モデルと報酬モデルを交互に微調整することを目的としている。
論文 参考訳(メタデータ) (2023-03-10T18:53:52Z) - When Life Gives You Lemons, Make Cherryade: Converting Feedback from Bad
Responses into Good Labels [34.6235464256814]
Juicerは、バイナリとフリーフォームの両方の人間のフィードバックを利用するためのフレームワークである。
モデル修正応答による強化訓練が最終対話モデルを改善することが判明した。
論文 参考訳(メタデータ) (2022-10-28T04:57:21Z) - MCP: Self-supervised Pre-training for Personalized Chatbots with
Multi-level Contrastive Sampling [18.40883902610959]
個人化されたチャットボットのための対話履歴からより良い表現を抽出するための自己教師型学習フレームワークを提案する。
具体的には、ユーザダイアログ履歴に隠された教師付き信号を利用するために、対照的なサンプリング手法を適用する。
2つの実世界のデータセットに対する実験結果から,提案したモデルMPPは既存手法と比較して大幅に改善された。
論文 参考訳(メタデータ) (2022-10-17T05:16:23Z) - Jewelry Shop Conversational Chatbot [0.0]
そこで我々は,顧客からの問い合わせに対して,入力とコーパスのパターンとの類似性を見出すことにより,客の問い合わせの基盤となる目的を見出すジュエリーショップのための対話エージェントを構築した。
我々のシステムはクライアント向けの音声入力インタフェースを備えており、自然言語で話すことができる。
システムの性能を評価するために、リコール、精度、F1スコアなどのパフォーマンス指標を使用しました。
論文 参考訳(メタデータ) (2022-06-09T17:56:51Z) - Training Language Models with Natural Language Feedback [51.36137482891037]
3段階学習アルゴリズムを用いてモデル出力の言語フィードバックから学習する。
合成実験において、まず言語モデルがフィードバックを正確に組み込んで改良を行うかどうかを評価する。
人間の手書きフィードバックのサンプルは100程度しかなく, 学習アルゴリズムはGPT-3モデルを微調整し, ほぼ人間レベルの要約を行う。
論文 参考訳(メタデータ) (2022-04-29T15:06:58Z) - Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn
Chatbot Responding with Intention [55.77218465471519]
本稿では,チャットボットに人間のような意図を持つための革新的なフレームワークを提案する。
我々のフレームワークには、ガイドロボットと人間の役割を担うインターロケータモデルが含まれていた。
本フレームワークを3つの実験的なセットアップを用いて検討し,4つの異なる指標を用いた誘導ロボットの評価を行い,柔軟性と性能の利点を実証した。
論文 参考訳(メタデータ) (2021-03-30T15:24:37Z) - Dialogue Response Ranking Training with Large-Scale Human Feedback Data [52.12342165926226]
ソーシャルメディアのフィードバックデータを利用して、フィードバック予測のための大規模なトレーニングデータセットを構築します。
我々は,1300万対の人間のフィードバックデータに基づくGPT-2モデルであるDialogRPTを訓練した。
我々のランキングは、Redditのフィードバックを予測する上で、従来のダイアログの難易度ベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-15T10:50:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。