論文の概要: Constraint Sampling Reinforcement Learning: Incorporating Expertise For
Faster Learning
- arxiv url: http://arxiv.org/abs/2112.15221v1
- Date: Thu, 30 Dec 2021 22:02:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-03 14:48:21.303170
- Title: Constraint Sampling Reinforcement Learning: Incorporating Expertise For
Faster Learning
- Title(参考訳): 制約サンプリング強化学習: 学習の高速化のための専門知識の導入
- Authors: Tong Mu, Georgios Theocharous, David Arbour, Emma Brunskill
- Abstract要約: 本稿では,人間の洞察を高速学習に組み込むための実践的アルゴリズムを提案する。
我々のアルゴリズムであるConstraint Sampling Reinforcement Learning (CSRL)は、事前のドメイン知識をRLポリシーの制約/制約として組み込む。
すべてのケースにおいて、CSRLはベースラインよりも早く良いポリシーを学ぶ。
- 参考スコア(独自算出の注目度): 43.562783189118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online reinforcement learning (RL) algorithms are often difficult to deploy
in complex human-facing applications as they may learn slowly and have poor
early performance. To address this, we introduce a practical algorithm for
incorporating human insight to speed learning. Our algorithm, Constraint
Sampling Reinforcement Learning (CSRL), incorporates prior domain knowledge as
constraints/restrictions on the RL policy. It takes in multiple potential
policy constraints to maintain robustness to misspecification of individual
constraints while leveraging helpful ones to learn quickly. Given a base RL
learning algorithm (ex. UCRL, DQN, Rainbow) we propose an upper confidence with
elimination scheme that leverages the relationship between the constraints, and
their observed performance, to adaptively switch among them. We instantiate our
algorithm with DQN-type algorithms and UCRL as base algorithms, and evaluate
our algorithm in four environments, including three simulators based on real
data: recommendations, educational activity sequencing, and HIV treatment
sequencing. In all cases, CSRL learns a good policy faster than baselines.
- Abstract(参考訳): オンライン強化学習(RL)アルゴリズムは、ゆっくりと学習し、初期の性能が劣る可能性があるため、複雑な人間向けアプリケーションに展開することがしばしば困難である。
そこで本研究では,人間の洞察を高速学習に組み込む実用的なアルゴリズムを提案する。
我々のアルゴリズムであるConstraint Sampling Reinforcement Learning (CSRL)は、事前のドメイン知識をRLポリシーの制約/制約として組み込む。
個々の制約の誤った指定に対して堅牢性を維持するために、複数の潜在的なポリシー制約を必要とします。
基本的RL学習アルゴリズム(UCRL,DQN,Rainbowなど)が与えられた場合,制約と観測性能の関係を生かした消去スキームによる高信頼度を提案し,それらを適応的に切り替える。
dqn型アルゴリズムとucrlを基本アルゴリズムとしてアルゴリズムをインスタンス化し,実際のデータに基づく3つのシミュレータ,レコメンデーション,教育活動シーケンシング,hiv治療シーケンシングを含む4つの環境評価を行った。
すべてのケースにおいて、CSRLはベースラインよりも早く良いポリシーを学ぶ。
関連論文リスト
- Reinforcement Learning with Stepwise Fairness Constraints [50.538878453547966]
本稿では,段階的公正性制約を伴う強化学習について紹介する。
我々は、ポリシーの最適性と公正性違反に関して、強力な理論的保証を持つ学習アルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-11-08T04:06:23Z) - Ensemble Reinforcement Learning in Continuous Spaces -- A Hierarchical
Multi-Step Approach for Policy Training [4.982806898121435]
本稿では,革新的な多段階統合手法に基づいて,基礎学習者のアンサンブルを訓練する手法を提案する。
本手法は,学習者間コラボレーションを効果的に促進するアンサンブルDRLのための新しい階層学習アルゴリズムの開発を可能にする。
また、このアルゴリズムは複数のベンチマークRL問題に対していくつかの最先端のDRLアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-09-29T00:42:44Z) - When does return-conditioned supervised learning work for offline
reinforcement learning? [51.899892382786526]
本研究では,リターン条件付き教師あり学習の能力と限界について検討する。
RCSLは、より伝統的な動的プログラミングベースのアルゴリズムに必要なものよりも強い仮定のセットで最適なポリシーを返す。
論文 参考訳(メタデータ) (2022-06-02T15:05:42Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Deep Reinforcement Learning with Adjustments [10.244120641608447]
制御とRLアルゴリズムをブリッジできる連続行動空間のための新しいQ-ラーニングアルゴリズムを提案する。
提案手法は,長期的目標を達成するための複雑なポリシを学習できると同時に,短期的な要件に対応するための調整も容易である。
論文 参考訳(メタデータ) (2021-09-28T03:35:09Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Deep RL With Information Constrained Policies: Generalization in
Continuous Control [21.46148507577606]
情報フローに対する自然な制約は, 連続制御タスクにおいて, 人工エージェントに干渉する可能性があることを示す。
CLAC(Capacity-Limited Actor-Critic)アルゴリズムを実装した。
実験の結果、CLACは代替手法と比較して、トレーニング環境と修正テスト環境の一般化に改善をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-10-09T15:42:21Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。