論文の概要: Conservative Exploration in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2002.03218v2
- Date: Wed, 15 Jul 2020 12:51:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 22:30:02.592692
- Title: Conservative Exploration in Reinforcement Learning
- Title(参考訳): 強化学習における保守的探索
- Authors: Evrard Garcelon, Mohammad Ghavamzadeh, Alessandro Lazaric, Matteo
Pirotta
- Abstract要約: 平均報酬と有限地平線問題に対する保守的探索の概念を導入する。
我々は、学習中に保守的な制約が決して違反されないことを保証する楽観的なアルゴリズムを2つ提示する。
- 参考スコア(独自算出の注目度): 113.55554483194832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While learning in an unknown Markov Decision Process (MDP), an agent should
trade off exploration to discover new information about the MDP, and
exploitation of the current knowledge to maximize the reward. Although the
agent will eventually learn a good or optimal policy, there is no guarantee on
the quality of the intermediate policies. This lack of control is undesired in
real-world applications where a minimum requirement is that the executed
policies are guaranteed to perform at least as well as an existing baseline. In
this paper, we introduce the notion of conservative exploration for average
reward and finite horizon problems. We present two optimistic algorithms that
guarantee (w.h.p.) that the conservative constraint is never violated during
learning. We derive regret bounds showing that being conservative does not
hinder the learning ability of these algorithms.
- Abstract(参考訳): 未知のマルコフ決定プロセス(MDP)で学習している間、エージェントは、MDPに関する新しい情報を見つけるために探索をオフにし、報酬を最大化するために現在の知識を活用すべきである。
エージェントは最終的に良いあるいは最適なポリシーを学ぶだろうが、中間ポリシーの品質は保証されない。
この制御の欠如は、最小限の要件が実行されたポリシーが少なくとも既存のベースラインと同様に実行されることを保証されている現実のアプリケーションでは望ましくない。
本稿では,平均報酬と有限地平線問題に対する保守的探索の概念を紹介する。
我々は、学習中に保守的な制約が決して違反されないことを保証する楽観的なアルゴリズムを2つ提示する。
我々は、保守的であることがこれらのアルゴリズムの学習能力を妨げないことを示す後悔の限界を導き出す。
関連論文リスト
- Conservative Exploration for Policy Optimization via Off-Policy Policy
Evaluation [4.837737516460689]
我々は,少なくとも学習者がその性能を保証できなければならない保守的な探索の問題を,少なくとも基本方針と同程度によく研究する。
連続有限ホライゾン問題におけるポリシー最適化のための最初の保守的証明可能なモデルフリーアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-24T10:59:32Z) - Mildly Conservative Q-Learning for Offline Reinforcement Learning [63.2183622958666]
オフライン強化学習(RL)は、環境と継続的に対話することなく、静的なログ付きデータセットから学習するタスクを定義する。
既存のアプローチ、目に見えない行動のペナルティ化、行動方針の規則化は悲観的すぎる。
我々は,適切な擬似Q値を割り当てることで,OODアクションを積極的に訓練するマイルリー保守的Q-ラーニング(MCQ)を提案する。
論文 参考訳(メタデータ) (2022-06-09T19:44:35Z) - Safe Exploration for Constrained Reinforcement Learning with Provable
Guarantees [2.379828460137829]
そこで我々は,OPSRL(Optimistic-Pessimistic Safe Reinforcement Learning)アルゴリズムと呼ぶモデルベースの安全なRLアルゴリズムを提案する。
学習中の安全性制約に違反することなく, $tildemathcalO(S2sqrtA H7K/ (barC - barC_b)$ cumulative regretを達成できることを示す。
論文 参考訳(メタデータ) (2021-12-01T23:21:48Z) - Beyond Value-Function Gaps: Improved Instance-Dependent Regret Bounds
for Episodic Reinforcement Learning [50.44564503645015]
有限エピソードマルコフ決定過程における強化学習のための改良されたギャップ依存的後悔境界を提供する。
楽観的なアルゴリズムでは,より強い後悔境界を証明し,多数のMDPに対して新たな情報理論的下限を伴う。
論文 参考訳(メタデータ) (2021-07-02T20:36:05Z) - Safe Reinforcement Learning Using Advantage-Based Intervention [45.79740561754542]
多くのシーケンシャルな決定問題は、安全性の制約に従いながら全報酬を最大化するポリシーを見つけることである。
本稿では,エージェントの安全性を確保するために,アドバンテージ関数に基づく介入機構を用いた新しいアルゴリズムであるSAILRを提案する。
私たちの方法には、トレーニングとデプロイメントの両方において、安全性が強く保証されています。
論文 参考訳(メタデータ) (2021-06-16T20:28:56Z) - Revisiting Peng's Q($\lambda$) for Modern Reinforcement Learning [69.39357308375212]
オフライン多段階強化学習アルゴリズムは、保守的および非保守的アルゴリズムからなる。
最近の研究では、非保守的アルゴリズムが保守的アルゴリズムよりも優れていることが示されている。
論文 参考訳(メタデータ) (2021-02-27T02:29:01Z) - Constrained Markov Decision Processes via Backward Value Functions [43.649330976089004]
制約付きマルコフ決定プロセスとして,制約付き学習の問題をモデル化する。
我々のアプローチの重要な貢献は、累積的なコスト制約を状態ベースの制約に変換することである。
我々は、エージェントが訓練の過程で安全を確保しながら収束する理論的保証を提供する。
論文 参考訳(メタデータ) (2020-08-26T20:56:16Z) - Improved Algorithms for Conservative Exploration in Bandits [113.55554483194832]
文脈線形帯域設定における保守的学習問題について検討し、新しいアルゴリズムである保守的制約付きLinUCB(CLUCB2)を導入する。
我々は、既存の結果と一致したCLUCB2に対する後悔の限界を導き、多くの合成および実世界の問題において、最先端の保守的バンディットアルゴリズムよりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2020-02-08T19:35:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。