論文の概要: Conservative Exploration for Policy Optimization via Off-Policy Policy
Evaluation
- arxiv url: http://arxiv.org/abs/2312.15458v1
- Date: Sun, 24 Dec 2023 10:59:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 18:04:33.292183
- Title: Conservative Exploration for Policy Optimization via Off-Policy Policy
Evaluation
- Title(参考訳): オフポリシー政策評価による政策最適化の保守的探究
- Authors: Paul Daoudi, Mathias Formoso, Othman Gaizi, Achraf Azize, Evrard
Garcelon
- Abstract要約: 我々は,少なくとも学習者がその性能を保証できなければならない保守的な探索の問題を,少なくとも基本方針と同程度によく研究する。
連続有限ホライゾン問題におけるポリシー最適化のための最初の保守的証明可能なモデルフリーアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 4.837737516460689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A precondition for the deployment of a Reinforcement Learning agent to a
real-world system is to provide guarantees on the learning process. While a
learning algorithm will eventually converge to a good policy, there are no
guarantees on the performance of the exploratory policies. We study the problem
of conservative exploration, where the learner must at least be able to
guarantee its performance is at least as good as a baseline policy. We propose
the first conservative provably efficient model-free algorithm for policy
optimization in continuous finite-horizon problems. We leverage importance
sampling techniques to counterfactually evaluate the conservative condition
from the data self-generated by the algorithm. We derive a regret bound and
show that (w.h.p.) the conservative constraint is never violated during
learning. Finally, we leverage these insights to build a general schema for
conservative exploration in DeepRL via off-policy policy evaluation techniques.
We show empirically the effectiveness of our methods.
- Abstract(参考訳): 強化学習エージェントを実世界のシステムに展開するための前提条件は、学習プロセスに対する保証を提供することである。
学習アルゴリズムは最終的に優れたポリシに収束するが、探索的ポリシのパフォーマンスに関する保証はない。
我々は,少なくとも学習者がその性能を保証できなければならない保守的な探索の問題を,少なくとも基本方針と同程度に研究する。
連続有限ホライゾン問題におけるポリシー最適化のための最初の保守的証明可能なモデルフリーアルゴリズムを提案する。
アルゴリズムが自己生成したデータから保守的条件を反証的に評価するために,重要サンプリング技術を活用する。
我々は後悔の束縛を導き、(w.h.p.)保守的な制約が学習中に決して違反されないことを示す。
最後に,これらの知見を活用して,非政治政策評価手法を通じて,deeprlにおける保守的探索のための汎用スキーマを構築する。
我々は経験的に方法の有効性を示す。
関連論文リスト
- SaVeR: Optimal Data Collection Strategy for Safe Policy Evaluation in Tabular MDP [9.71834921109414]
表型マルコフ決定過程(MDP)における政策評価を目的とした安全なデータ収集について検討する。
まず、問題パラメータに関する知識を持つ安全なオラクルアルゴリズムが、データを効率よく収集し、安全性の制約を満たすような、難解なMDPのクラスが存在することを示す。
次に、この問題に対するアルゴリズムSaVeRを導入し、安全オラクルアルゴリズムを近似し、アルゴリズムの有限サンプル平均二乗誤差を拘束し、安全性の制約を満たすことを保証する。
論文 参考訳(メタデータ) (2024-06-04T09:54:55Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Value Enhancement of Reinforcement Learning via Efficient and Robust
Trust Region Optimization [14.028916306297928]
強化学習(Reinforcement Learning, RL)は、インテリジェントエージェントが最適なポリシーを学習できるようにする強力な機械学習技術である。
本稿では,既存の最先端RLアルゴリズムによって計算された初期ポリシーの性能を向上させるために,新しい値拡張手法を提案する。
論文 参考訳(メタデータ) (2023-01-05T18:43:40Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Counterfactual Learning with General Data-generating Policies [3.441021278275805]
我々は、コンテキスト帯域設定における完全なサポートと不足したサポートロギングポリシーのクラスのためのOPE手法を開発した。
サンプルサイズが大きくなるにつれて,本手法の予測値が実測値の真の性能に収束することが証明された。
論文 参考訳(メタデータ) (2022-12-04T21:07:46Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Revisiting Peng's Q($\lambda$) for Modern Reinforcement Learning [69.39357308375212]
オフライン多段階強化学習アルゴリズムは、保守的および非保守的アルゴリズムからなる。
最近の研究では、非保守的アルゴリズムが保守的アルゴリズムよりも優れていることが示されている。
論文 参考訳(メタデータ) (2021-02-27T02:29:01Z) - Distributionally Robust Batch Contextual Bandits [20.667213458836734]
歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。
既存の文献は、学習方針が展開される将来の環境が過去の環境と同じである、という決定的な前提に基づいている。
本稿では、この仮定を引き上げ、不完全な観測データを用いて、分布的に堅牢なポリシーを学習することを目的とする。
論文 参考訳(メタデータ) (2020-06-10T03:11:40Z) - Conservative Exploration in Reinforcement Learning [113.55554483194832]
平均報酬と有限地平線問題に対する保守的探索の概念を導入する。
我々は、学習中に保守的な制約が決して違反されないことを保証する楽観的なアルゴリズムを2つ提示する。
論文 参考訳(メタデータ) (2020-02-08T19:09:51Z) - Preventing Imitation Learning with Adversarial Policy Ensembles [79.81807680370677]
模倣学習は、政策プライバシに関する問題を引き起こす専門家を観察することで、ポリシーを再現することができる。
プロプライエタリなポリシーをクローンする外部オブザーバに対して、どうすれば保護できるのか?
新しい強化学習フレームワークを導入し、準最適政策のアンサンブルを訓練する。
論文 参考訳(メタデータ) (2020-01-31T01:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。