論文の概要: When Life Gives You Lemons, Make Cherryade: Converting Feedback from Bad
Responses into Good Labels
- arxiv url: http://arxiv.org/abs/2210.15893v1
- Date: Fri, 28 Oct 2022 04:57:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 15:13:34.414292
- Title: When Life Gives You Lemons, Make Cherryade: Converting Feedback from Bad
Responses into Good Labels
- Title(参考訳): 人生がレモンを与えるとき、チェリーデを作る:悪い反応からのフィードバックを良いラベルに変える
- Authors: Weiyan Shi, Emily Dinan, Kurt Shuster, Jason Weston, Jing Xu
- Abstract要約: Juicerは、バイナリとフリーフォームの両方の人間のフィードバックを利用するためのフレームワークである。
モデル修正応答による強化訓練が最終対話モデルを改善することが判明した。
- 参考スコア(独自算出の注目度): 34.6235464256814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deployed dialogue agents have the potential to integrate human feedback to
continuously improve themselves. However, humans may not always provide
explicit signals when the chatbot makes mistakes during interactions. In this
work, we propose Juicer, a framework to make use of both binary and free-form
textual human feedback. It works by: (i) extending sparse binary feedback by
training a satisfaction classifier to label the unlabeled data; and (ii)
training a reply corrector to map the bad replies to good ones. We find that
augmenting training with model-corrected replies improves the final dialogue
model, and we can further improve performance by using both positive and
negative replies through the recently proposed Director model.
- Abstract(参考訳): デプロイされた対話エージェントは、人間のフィードバックを統合して継続的に改善する可能性がある。
しかし、チャットボットが対話中にミスをしたとき、人間は常に明確な信号を提供するとは限らない。
本研究では,バイナリと自由形式のテキストフィードバックの両方を利用するためのフレームワークであるJuicerを提案する。
動作します。
(i)満足度分類器を訓練し、ラベルのないデータをラベル付けすることにより、スパースバイナリフィードバックを拡張すること。
(ii)悪い回答を良い回答にマップするために、返信訂正者を訓練すること。
モデル修正応答による強化トレーニングは最終対話モデルを改善し,最近提案されたディレクタモデルにより,肯定応答と否定応答の両方を用いることで,パフォーマンスをさらに向上させることができる。
関連論文リスト
- RefuteBench: Evaluating Refuting Instruction-Following for Large Language Models [17.782410287625645]
本稿では,質問応答,機械翻訳,電子メール作成などのタスクをカバーするベンチマークRefuteBenchを提案する。
評価の目的は、モデルが反響命令の形で肯定的にフィードバックを受けられるか、会話を通してユーザー要求に一貫して従えられるかを評価することである。
論文 参考訳(メタデータ) (2024-02-21T01:39:56Z) - Leveraging Implicit Feedback from Deployment Data in Dialogue [83.02878726357523]
本研究では,ユーザ間の自然な対話とデプロイモデルから学習することで,社会的会話エージェントの改善について検討する。
我々は、ユーザ応答長、感情、未来の人間の発話の反応などの信号を、収集された対話エピソードで活用する。
論文 参考訳(メタデータ) (2023-07-26T11:34:53Z) - Fine-Grained Human Feedback Gives Better Rewards for Language Model
Training [108.25635150124539]
言語モデル(LM)は、しばしば偽、有毒、無関係な出力を生成するなど、望ましくないテキスト生成の振る舞いを示す。
本研究では,2つの点において微細な報酬関数から学習と学習を可能にするフレームワークであるFine-Grained RLHFを紹介する。
論文 参考訳(メタデータ) (2023-06-02T17:11:37Z) - WeaSuL: Weakly Supervised Dialogue Policy Learning: Reward Estimation
for Multi-turn Dialogue [17.663449579168297]
エージェントとユーザ(教師付き学習目標を持つエージェントに類似したモデル化)の対話をシミュレートし、相互に対話する。
エージェントは動的ブロッキングを使用して、ランク付けされた多様な応答と探索-探索を生成し、トップK応答の中から選択する。
2つのベンチマークによる実証研究は、我々のモデルが応答品質を著しく上回り、会話の成功につながることを示唆している。
論文 参考訳(メタデータ) (2021-08-01T08:00:45Z) - Improving Response Quality with Backward Reasoning in Open-domain
Dialogue Systems [53.160025961101354]
本稿では,バニラエンコーダデコーダトレーニングに後方推論ステップを追加することで,生成モデルを双方向にトレーニングすることを提案する。
提案する後方推論ステップは、モデルがより有益で一貫性のあるコンテンツを生成するように促す。
副次的な情報を導入することなく応答品質を向上させることができる。
論文 参考訳(メタデータ) (2021-04-30T20:38:27Z) - Improving Conversational Question Answering Systems after Deployment
using Feedback-Weighted Learning [69.42679922160684]
本稿では,二元的ユーザフィードバックを用いた初期教師付きシステムを改善するために,重要サンプリングに基づくフィードバック重み付き学習を提案する。
当社の作業は,実際のユーザとのインタラクションを活用し,デプロイ後の会話システムを改善する可能性を開くものだ。
論文 参考訳(メタデータ) (2020-11-01T19:50:34Z) - Learning Improvised Chatbots from Adversarial Modifications of Natural
Language Feedback [19.026954124876582]
本稿では,雑音フィードバックを会話中の自然な応答に変換する生成逆モデルを提案する。
ジェネレータの目標は、ユーザの以前の発話に応答する応答にフィードバックを変換し、差別者を騙すことである。
論文 参考訳(メタデータ) (2020-10-14T17:33:37Z) - Dialogue Response Ranking Training with Large-Scale Human Feedback Data [52.12342165926226]
ソーシャルメディアのフィードバックデータを利用して、フィードバック予測のための大規模なトレーニングデータセットを構築します。
我々は,1300万対の人間のフィードバックデータに基づくGPT-2モデルであるDialogRPTを訓練した。
我々のランキングは、Redditのフィードバックを予測する上で、従来のダイアログの難易度ベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-15T10:50:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。