論文の概要: Building Persona Consistent Dialogue Agents with Offline Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2310.10735v1
- Date: Mon, 16 Oct 2023 18:05:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 19:26:57.240918
- Title: Building Persona Consistent Dialogue Agents with Offline Reinforcement
Learning
- Title(参考訳): オフライン強化学習によるパーソナライズ型対話エージェントの構築
- Authors: Ryan Shea and Zhou Yu
- Abstract要約: 教師付き学習・オンライン強化学習(RL)による訓練エージェントによる現状学習システムの構築
対話システムのペルソナ一貫性を改善するためのオフラインRLフレームワークを提案する。
- 参考スコア(独自算出の注目度): 23.149638288383347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Maintaining a consistent persona is a key quality for any open domain
dialogue system. Current state-of-the-art systems do this by training agents
with supervised learning or online reinforcement learning (RL). However,
systems trained with supervised learning often lack consistency as they are
never punished for uttering contradictions. Additional training with RL can
alleviate some of these issues, however the training process is expensive.
Instead, we propose an offline RL framework to improve the persona consistency
of dialogue systems. Our framework allows us to combine the advantages of
previous methods as we can inexpensively train our model on existing data as in
supervised learning, while punishing and rewarding specific utterances as in
RL. We also introduce a simple importance sampling method to reduce the
variance of importance weights in offline RL training which we call
Variance-Reducing MLE-Initialized (VaRMI) importance sampling. Our automatic
and human evaluations show that our framework improves both the persona
consistency and dialogue quality of a state-of-the-art social chatbot.
- Abstract(参考訳): 一貫性のあるペルソナを維持することは、オープンドメイン対話システムにとって重要な品質である。
現在の最先端システムは、教師付き学習やオンライン強化学習(RL)による訓練エージェントによって実現されている。
しかし、教師付き学習で訓練されたシステムは、矛盾の発言に対して決して罰されないため、一貫性を欠くことが多い。
RLによる追加トレーニングはこれらの問題のいくつかを軽減することができるが、トレーニングプロセスは高価である。
代わりに,対話システムのペルソナ一貫性を改善するためのオフラインrlフレームワークを提案する。
我々のフレームワークは、教師付き学習のように既存のデータに基づいてモデルを安価にトレーニングし、RLのように特定の発話を罰・報奨しながら、従来の手法の利点を組み合わせることができる。
また,VaRMI(Variance-Reducing MLE-Initialized (VaRMI) importance sample)と呼ぶオフラインRLトレーニングにおいて,重みの分散を低減するための簡易な重要サンプリング手法を提案する。
自動評価と人的評価により,我々のフレームワークは,最先端のソーシャルチャットボットのペルソナ一貫性と対話品質の両方を改善していることが示された。
関連論文リスト
- Replicating Complex Dialogue Policy of Humans via Offline Imitation
Learning with Supervised Regularization [7.151589223349882]
ポリシーラーニング(英: Policy Learning、PL)は、エージェントに各対話のターンでアクションをするように訓練するタスク指向の対話システムのモジュールである。
教師付き学習(SL)と強化学習(RL)の両方のフレームワークは、人間をうまく模倣することはできない。
本研究では,実対話データセットからポリシーを学習するオフライン模倣学習モデルを提案する。
論文 参考訳(メタデータ) (2023-05-06T09:27:58Z) - CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement
Learning [85.3987745097806]
オフライン強化学習は、人間の話者から収集された静的データセットを使用して、対話エージェントをトレーニングするために使用することができる。
実験により,最近開発されたオフラインRL手法と言語モデルを組み合わせることで,現実的な対話エージェントが得られることが示された。
論文 参考訳(メタデータ) (2022-04-18T17:43:21Z) - Offline-to-Online Reinforcement Learning via Balanced Replay and
Pessimistic Q-Ensemble [135.6115462399788]
深いオフライン強化学習により、オフラインデータセットから強力なロボットエージェントをトレーニングすることが可能になった。
状態-作用分布シフトは、微調整中に厳しいブートストラップエラーを引き起こす可能性がある。
本稿では,オンライン上で遭遇したサンプルを優先しながら,ほぼ政治的なサンプルの使用を奨励するバランスの取れたリプレイ方式を提案する。
論文 参考訳(メタデータ) (2021-07-01T16:26:54Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - A bandit approach to curriculum generation for automatic speech
recognition [7.008190762572486]
本稿では,自動カリキュラム学習を用いて,学習データの欠如を緩和する手法を提案する。
このアプローチの目的は、難易度でランク付けされたミニバッチのトレーニングシーケンスを最適化することである。
我々は,本手法を真に低リソースな言語で検証し,ベースライン移行学習モデルに対して,帯域幅フレームワークが優れた改善を実現していることを示す。
論文 参考訳(メタデータ) (2021-02-06T20:32:10Z) - Automatic Curriculum Learning With Over-repetition Penalty for Dialogue
Policy Learning [8.744026064255337]
ACL-DQN(Automatic Curriculum Learning-based Deep Q-Network)という新しいフレームワークを提案し,自動カリキュラム学習のための対話方針を実現する。
教師モデルは、有意義な順序のカリキュラムを配置し、対話エージェントの学習進捗を監視して自動的に調整する。
実験により,ACL-DQNは,統計的に有意なマージンを有する対話タスクの有効性と安定性を著しく向上することが示された。
論文 参考訳(メタデータ) (2020-12-28T02:44:49Z) - Human-centric Dialog Training via Offline Reinforcement Learning [16.525761580699257]
オフライン強化学習アルゴリズムの新たなクラスを開発する。
オープンドメイン設定で80ユーザからのレーティングで結果のダイアログモデルをテストする。
論文 参考訳(メタデータ) (2020-10-12T16:53:00Z) - Rethinking Supervised Learning and Reinforcement Learning in
Task-Oriented Dialogue Systems [58.724629408229205]
本稿では、従来の教師あり学習とシミュレータなしの逆学習法を用いて、最先端のRL法に匹敵する性能を実現する方法を示す。
我々の主な目的は、教師あり学習で強化学習に勝ることではなく、タスク指向対話システムの最適化における強化学習と教師あり学習の役割を再考する価値を示すことである。
論文 参考訳(メタデータ) (2020-09-21T12:04:18Z) - Modelling Hierarchical Structure between Dialogue Policy and Natural
Language Generator with Option Framework for Task-oriented Dialogue System [49.39150449455407]
HDNOは、特定の対話行為表現の設計を避けるために潜在対話行為を設計するためのオプションフレームワークである。
RL,LaRL,HDSAで学習した単語レベルE2Eモデルと比較して,マルチドメイン対話のデータセットであるMultiWoz 2.0とMultiWoz 2.1でHDNOをテストする。
論文 参考訳(メタデータ) (2020-06-11T20:55:28Z) - Guided Dialog Policy Learning without Adversarial Learning in the Loop [103.20723982440788]
対話政策とともに報酬関数を学習するために,多くの逆学習法が提案されている。
敵の訓練を2つの段階に分割することを提案する。
まず,識別器を補助対話生成器で訓練し,得られた報酬モデルを共通RL法に組み込んで対話ポリシー学習を指導する。
論文 参考訳(メタデータ) (2020-04-07T11:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。