論文の概要: Rethinking Supervised Learning and Reinforcement Learning in
Task-Oriented Dialogue Systems
- arxiv url: http://arxiv.org/abs/2009.09781v1
- Date: Mon, 21 Sep 2020 12:04:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 04:06:50.178495
- Title: Rethinking Supervised Learning and Reinforcement Learning in
Task-Oriented Dialogue Systems
- Title(参考訳): タスク指向対話システムにおける教師付き学習と強化学習の再考
- Authors: Ziming Li and Julia Kiseleva and Maarten de Rijke
- Abstract要約: 本稿では、従来の教師あり学習とシミュレータなしの逆学習法を用いて、最先端のRL法に匹敵する性能を実現する方法を示す。
我々の主な目的は、教師あり学習で強化学習に勝ることではなく、タスク指向対話システムの最適化における強化学習と教師あり学習の役割を再考する価値を示すことである。
- 参考スコア(独自算出の注目度): 58.724629408229205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dialogue policy learning for task-oriented dialogue systems has enjoyed great
progress recently mostly through employing reinforcement learning methods.
However, these approaches have become very sophisticated. It is time to
re-evaluate it. Are we really making progress developing dialogue agents only
based on reinforcement learning? We demonstrate how (1)~traditional supervised
learning together with (2)~a simulator-free adversarial learning method can be
used to achieve performance comparable to state-of-the-art RL-based methods.
First, we introduce a simple dialogue action decoder to predict the appropriate
actions. Then, the traditional multi-label classification solution for dialogue
policy learning is extended by adding dense layers to improve the dialogue
agent performance. Finally, we employ the Gumbel-Softmax estimator to
alternatively train the dialogue agent and the dialogue reward model without
using reinforcement learning. Based on our extensive experimentation, we can
conclude the proposed methods can achieve more stable and higher performance
with fewer efforts, such as the domain knowledge required to design a user
simulator and the intractable parameter tuning in reinforcement learning. Our
main goal is not to beat reinforcement learning with supervised learning, but
to demonstrate the value of rethinking the role of reinforcement learning and
supervised learning in optimizing task-oriented dialogue systems.
- Abstract(参考訳): タスク指向対話システムにおける対話政策学習は,強化学習手法を用いることで,近年大きな進歩を遂げている。
しかし、これらのアプローチは非常に洗練されている。
再評価する時が来た。
強化学習のみに基づく対話エージェントの開発は本当に進んでいるのか?
1) 従来の教師付き学習と(2) シミュレータフリーの逆学習法を併用して,最先端のrl法に匹敵する性能を実現する方法を示す。
まず,適切な動作を予測するための単純な対話動作デコーダを提案する。
そして、ダイアログエージェントの性能を向上させるため、ダイアログポリシー学習のための従来のマルチラベル分類ソリューションを拡張した。
最後に,Gumbel-Softmax推定器を用いて,強化学習を使わずに対話エージェントと対話報酬モデルを訓練する。
提案手法は,ユーザシミュレータの設計に必要なドメイン知識や強化学習における難易度パラメータチューニングなど,少ない労力で,より安定かつ高い性能を実現することができる。
我々の主な目的は、教師あり学習で強化学習に勝ることではなく、タスク指向対話システムの最適化における強化学習と教師あり学習の役割を再考する価値を示すことである。
関連論文リスト
- Scheduled Curiosity-Deep Dyna-Q: Efficient Exploration for Dialog Policy Learning [4.110108749051657]
強化学習に基づくタスク指向対話エージェントの訓練には時間を要する。
我々は、最先端のモデルに基づく強化学習ダイアログモデルであるDeep Dyna-Q(DDQ)に基づく、好奇心駆動型カリキュラム学習フレームワークであるSchduled Curiosity-Deep Dyna-Q(SC-DDQ)を提案する。
提案手法は,スケジュール学習と好奇心を導入することにより,DDQと深層Q-ラーニング(DQN)を大幅に改善することを示す。
論文 参考訳(メタデータ) (2024-01-31T06:13:28Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Self-Explanation Prompting Improves Dialogue Understanding in Large
Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。
このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。
6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-22T15:41:34Z) - Structural Pre-training for Dialogue Comprehension [51.215629336320305]
本稿では,SPIDER, Structure Pre-trained DialoguE Readerについて述べる。
対話のような特徴をシミュレートするために,元のLM目的に加えて,2つの訓練目標を提案する。
広く使われている対話ベンチマークの実験結果から,新たに導入した自己教師型タスクの有効性が検証された。
論文 参考訳(メタデータ) (2021-05-23T15:16:54Z) - Continual Learning in Task-Oriented Dialogue Systems [49.35627673523519]
タスク指向対話システムにおける継続的な学習は、システム全体のリトレーニングのコストを伴わずに、時間を通じて新しいドメインや機能を追加できる。
37ドメインのタスク指向対話システムを4つの設定で継続的に学習するための継続的学習ベンチマークを提案する。
論文 参考訳(メタデータ) (2020-12-31T08:44:25Z) - Automatic Curriculum Learning With Over-repetition Penalty for Dialogue
Policy Learning [8.744026064255337]
ACL-DQN(Automatic Curriculum Learning-based Deep Q-Network)という新しいフレームワークを提案し,自動カリキュラム学習のための対話方針を実現する。
教師モデルは、有意義な順序のカリキュラムを配置し、対話エージェントの学習進捗を監視して自動的に調整する。
実験により,ACL-DQNは,統計的に有意なマージンを有する対話タスクの有効性と安定性を著しく向上することが示された。
論文 参考訳(メタデータ) (2020-12-28T02:44:49Z) - Adaptive Dialog Policy Learning with Hindsight and User Modeling [10.088347529930129]
シミュレーションと実ユーザの両方から,ダイアログエージェントが後見で適応的に学習できるアルゴリズムLHUAを開発した。
実験結果から、LHUAは成功率と政策品質において、文献の競争基準よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2020-05-07T07:43:43Z) - Guided Dialog Policy Learning without Adversarial Learning in the Loop [103.20723982440788]
対話政策とともに報酬関数を学習するために,多くの逆学習法が提案されている。
敵の訓練を2つの段階に分割することを提案する。
まず,識別器を補助対話生成器で訓練し,得られた報酬モデルを共通RL法に組み込んで対話ポリシー学習を指導する。
論文 参考訳(メタデータ) (2020-04-07T11:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。