論文の概要: Human-centric Dialog Training via Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2010.05848v1
- Date: Mon, 12 Oct 2020 16:53:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 05:58:26.617871
- Title: Human-centric Dialog Training via Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習による人間中心対話学習
- Authors: Natasha Jaques, Judy Hanwen Shen, Asma Ghandeharioun, Craig Ferguson,
Agata Lapedriza, Noah Jones, Shixiang Shane Gu, and Rosalind Picard
- Abstract要約: オフライン強化学習アルゴリズムの新たなクラスを開発する。
オープンドメイン設定で80ユーザからのレーティングで結果のダイアログモデルをテストする。
- 参考スコア(独自算出の注目度): 16.525761580699257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How can we train a dialog model to produce better conversations by learning
from human feedback, without the risk of humans teaching it harmful chat
behaviors? We start by hosting models online, and gather human feedback from
real-time, open-ended conversations, which we then use to train and improve the
models using offline reinforcement learning (RL). We identify implicit
conversational cues including language similarity, elicitation of laughter,
sentiment, and more, which indicate positive human feedback, and embed these in
multiple reward functions. A well-known challenge is that learning an RL policy
in an offline setting usually fails due to the lack of ability to explore and
the tendency to make over-optimistic estimates of future reward. These problems
become even harder when using RL for language models, which can easily have a
20,000 action vocabulary and many possible reward functions. We solve the
challenge by developing a novel class of offline RL algorithms. These
algorithms use KL-control to penalize divergence from a pre-trained prior
language model, and use a new strategy to make the algorithm pessimistic,
instead of optimistic, in the face of uncertainty. We test the resulting dialog
model with ratings from 80 users in an open-domain setting and find it achieves
significant improvements over existing deep offline RL approaches. The novel
offline RL method is viable for improving any existing generative dialog model
using a static dataset of human feedback.
- Abstract(参考訳): 人間が有害なチャット行動を教えるリスクなしに、人間のフィードバックから学び、より良い会話を生み出すために、どのようにダイアログモデルをトレーニングするか?
まず、モデルをオンラインでホストし、リアルタイムでオープンな会話から人間のフィードバックを集め、オフライン強化学習(RL)を使用してモデルをトレーニングおよび改善するために使用します。
我々は、人間のポジティブなフィードバックを示す言語類似性、笑いの誘発、感情などを含む暗黙の会話的手がかりを特定し、これらを複数の報酬機能に組み込む。
オフライン環境でのRLポリシーの学習は、探索能力の欠如と、将来の報酬を過度に最適化的に見積もる傾向のため、通常失敗する。
これらの問題は、言語モデルにRLを使用することでさらに困難になる。
オフラインRLアルゴリズムの新しいクラスを開発することで,この問題を解決する。
これらのアルゴリズムはKL制御を用いて事前訓練された事前言語モデルから分岐を罰し、不確実性に直面して楽観的ではなく悲観的なアルゴリズムに新しい戦略を用いる。
オープンドメイン設定で80ユーザからのレーティングで結果のダイアログモデルをテストし,既存のオフラインRLアプローチよりも大幅に改善されていることを確認した。
新しいオフラインRL法は、人間のフィードバックの静的データセットを用いて、既存の生成ダイアログモデルを改善するために有効である。
関連論文リスト
- Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。
現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。
本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-07T21:36:52Z) - Online Bandit Learning with Offline Preference Data [15.799929216215672]
ノイズの多い選好フィードバックを持つオフラインデータセットでウォームスタートできるオンライン学習のための後部サンプリングアルゴリズムを提案する。
生成したエキスパートの“コンピテンス”をモデル化することで、そのようなデータセットを最も効果的に利用できることを示します。
論文 参考訳(メタデータ) (2024-06-13T20:25:52Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - Building Persona Consistent Dialogue Agents with Offline Reinforcement
Learning [23.149638288383347]
教師付き学習・オンライン強化学習(RL)による訓練エージェントによる現状学習システムの構築
対話システムのペルソナ一貫性を改善するためのオフラインRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-16T18:05:54Z) - Replicating Complex Dialogue Policy of Humans via Offline Imitation
Learning with Supervised Regularization [7.151589223349882]
ポリシーラーニング(英: Policy Learning、PL)は、エージェントに各対話のターンでアクションをするように訓練するタスク指向の対話システムのモジュールである。
教師付き学習(SL)と強化学習(RL)の両方のフレームワークは、人間をうまく模倣することはできない。
本研究では,実対話データセットからポリシーを学習するオフライン模倣学習モデルを提案する。
論文 参考訳(メタデータ) (2023-05-06T09:27:58Z) - Offline Reinforcement Learning for Mixture-of-Expert Dialogue Management [36.254564021059515]
強化学習(Reinforcement Learning, RL)は, 筋力のない対話管理(DM)エージェントを開発する上で大きな期待を抱いている。
我々は,近年のMixture-of-Expert Language Models(MoE-LMs)を活用した対話計画のための多種多様なRLアルゴリズムを開発した。
提案手法は,MoE-LM構造を利用して,アクション空間のサイズを大幅に削減し,RLベースのDMの有効性を向上する。
論文 参考訳(メタデータ) (2023-02-21T18:02:20Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement
Learning [85.3987745097806]
オフライン強化学習は、人間の話者から収集された静的データセットを使用して、対話エージェントをトレーニングするために使用することができる。
実験により,最近開発されたオフラインRL手法と言語モデルを組み合わせることで,現実的な対話エージェントが得られることが示された。
論文 参考訳(メタデータ) (2022-04-18T17:43:21Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Guided Dialog Policy Learning without Adversarial Learning in the Loop [103.20723982440788]
対話政策とともに報酬関数を学習するために,多くの逆学習法が提案されている。
敵の訓練を2つの段階に分割することを提案する。
まず,識別器を補助対話生成器で訓練し,得られた報酬モデルを共通RL法に組み込んで対話ポリシー学習を指導する。
論文 参考訳(メタデータ) (2020-04-07T11:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。