論文の概要: Scheduled Curiosity-Deep Dyna-Q: Efficient Exploration for Dialog Policy Learning
- arxiv url: http://arxiv.org/abs/2402.00085v2
- Date: Mon, 20 May 2024 12:10:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 23:30:28.556912
- Title: Scheduled Curiosity-Deep Dyna-Q: Efficient Exploration for Dialog Policy Learning
- Title(参考訳): スケジューリングされた好奇心-ディープダイナ-Q:対話政策学習のための効率的な探索
- Authors: Xuecheng Niu, Akinori Ito, Takashi Nose,
- Abstract要約: 強化学習に基づくタスク指向対話エージェントの訓練には時間を要する。
我々は、最先端のモデルに基づく強化学習ダイアログモデルであるDeep Dyna-Q(DDQ)に基づく、好奇心駆動型カリキュラム学習フレームワークであるSchduled Curiosity-Deep Dyna-Q(SC-DDQ)を提案する。
提案手法は,スケジュール学習と好奇心を導入することにより,DDQと深層Q-ラーニング(DQN)を大幅に改善することを示す。
- 参考スコア(独自算出の注目度): 4.110108749051657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training task-oriented dialog agents based on reinforcement learning is time-consuming and requires a large number of interactions with real users. How to grasp dialog policy within limited dialog experiences remains an obstacle that makes the agent training process less efficient. In addition, most previous frameworks start training by randomly choosing training samples, which differs from the human learning method and hurts the efficiency and stability of training. Therefore, we propose Scheduled Curiosity-Deep Dyna-Q (SC-DDQ), a curiosity-driven curriculum learning framework based on a state-of-the-art model-based reinforcement learning dialog model, Deep Dyna-Q (DDQ). Furthermore, we designed learning schedules for SC-DDQ and DDQ, respectively, following two opposite training strategies: classic curriculum learning and its reverse version. Our results show that by introducing scheduled learning and curiosity, the new framework leads to a significant improvement over the DDQ and Deep Q-learning(DQN). Surprisingly, we found that traditional curriculum learning was not always effective. Specifically, according to the experimental results, the easy-first and difficult-first strategies are more suitable for SC-DDQ and DDQ. To analyze our results, we adopted the entropy of sampled actions to depict action exploration and found that training strategies with high entropy in the first stage and low entropy in the last stage lead to better performance.
- Abstract(参考訳): 強化学習に基づくタスク指向対話エージェントの訓練には時間を要する。
限られたダイアログ体験の中でダイアログポリシーを把握する方法は、エージェントのトレーニングプロセスの効率を損なう障害である。
さらに、従来のほとんどのフレームワークは、人間の学習方法とは異なるトレーニングサンプルをランダムに選択することでトレーニングを開始し、トレーニングの効率と安定性を損なう。
そこで本研究では,現状のモデルに基づく強化学習ダイアログモデルであるDeep Dyna-Q(DDQ)に基づく,好奇心駆動型カリキュラム学習フレームワークであるSchduled Curiosity-Deep Dyna-Q(SC-DDQ)を提案する。
さらに,SC-DDQ と DDQ の学習スケジュールを,古典的カリキュラム学習と逆バージョンという2つの逆の学習戦略に従って設計した。
その結果,本フレームワークは,スケジュール学習と好奇心を導入することで,DDQとディープQラーニング(DQN)を大幅に改善することがわかった。
驚いたことに、従来のカリキュラム学習は必ずしも効果的ではなかった。
具体的には、実験結果によると、SC-DDQ と DDQ には、より容易で難易度の高い戦略が適している。
実験結果から,実験結果のエントロピーを用いて行動探索を図った結果,第1段階では高いエントロピー,最終段階では低いエントロピーのトレーニング戦略により,より優れた性能が得られることがわかった。
関連論文リスト
- PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - CT-DQN: Control-Tutored Deep Reinforcement Learning [4.395396671038298]
Control-Tutored Deep Q-Networks (CT-DQN)は、制御チューターを利用して学習時間を短縮するDeep Reinforcement Learningアルゴリズムである。
我々は,OpenAI Gymの逆振り子,月面着陸機,カーレースの3つのシナリオに対するアプローチを検証する。
論文 参考訳(メタデータ) (2022-12-02T17:59:43Z) - Sequential Search with Off-Policy Reinforcement Learning [48.88165680363482]
本稿では,RNN学習フレームワークとアテンションモデルからなる,スケーラブルなハイブリッド学習モデルを提案する。
新たな最適化のステップとして、1つのRNNパスに複数の短いユーザシーケンスをトレーニングバッチ内に収める。
また、マルチセッションパーソナライズされた検索ランキングにおける非政治強化学習の利用についても検討する。
論文 参考訳(メタデータ) (2022-02-01T06:52:40Z) - Learning to Prompt for Continual Learning [34.609384246149325]
本研究は,テスト時にタスクの同一性にアクセスすることなく,より簡潔なメモリシステムのトレーニングを目的とした,連続学習のための新しいパラダイムを提案する。
本手法は,タスク遷移の異なるタスクを逐次学習するための事前学習モデル(L2P)を動的に学習する。
目的は、モデル予測を指示するプロンプトを最適化し、モデル可塑性を維持しながら、タスク不変およびタスク固有知識を明示的に管理することである。
論文 参考訳(メタデータ) (2021-12-16T06:17:07Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Sample-efficient reinforcement learning using deep Gaussian processes [18.044018772331636]
強化学習(Reinforcement learning)は、試行錯誤を通じてタスクを完了するためのアクションを制御するためのフレームワークを提供する。
モデルに基づく強化学習効率は、世界力学をシミュレートする学習によって改善される。
合成の深さがモデル複雑性をもたらすのに対して、ダイナミックスに関する事前の知識を取り入れることで、滑らかさと構造がもたらされる、深いガウス過程を導入する。
論文 参考訳(メタデータ) (2020-11-02T13:37:57Z) - Rethinking Supervised Learning and Reinforcement Learning in
Task-Oriented Dialogue Systems [58.724629408229205]
本稿では、従来の教師あり学習とシミュレータなしの逆学習法を用いて、最先端のRL法に匹敵する性能を実現する方法を示す。
我々の主な目的は、教師あり学習で強化学習に勝ることではなく、タスク指向対話システムの最適化における強化学習と教師あり学習の役割を再考する価値を示すことである。
論文 参考訳(メタデータ) (2020-09-21T12:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。