論文の概要: Constrained Policy Gradient Method for Safe and Fast Reinforcement
Learning: a Neural Tangent Kernel Based Approach
- arxiv url: http://arxiv.org/abs/2107.09139v1
- Date: Mon, 19 Jul 2021 20:25:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 14:57:25.051431
- Title: Constrained Policy Gradient Method for Safe and Fast Reinforcement
Learning: a Neural Tangent Kernel Based Approach
- Title(参考訳): 安全・高速強化学習のための制約付きポリシー勾配法:ニューラルタンジェントカーネルに基づくアプローチ
- Authors: Bal\'azs Varga, Bal\'azs Kulcs\'ar, Morteza Haghir Chehreghani
- Abstract要約: 本稿では,安全な学習のための制約付きポリシー勾配アルゴリズムを提案する。
安全な学習のための制約を次の手順で導入する。
制約学習の効率は、カルトポールとルナーランダーのオープンAI環境において、浅い広いReLUネットワークで実証された。
- 参考スコア(独自算出の注目度): 6.316693022958221
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a constrained policy gradient algorithm. We introduce
constraints for safe learning with the following steps. First, learning is
slowed down (lazy learning) so that the episodic policy change can be computed
with the help of the policy gradient theorem and the neural tangent kernel.
Then, this enables us the evaluation of the policy at arbitrary states too. In
the same spirit, learning can be guided, ensuring safety via augmenting episode
batches with states where the desired action probabilities are prescribed.
Finally, exogenous discounted sum of future rewards (returns) can be computed
at these specific state-action pairs such that the policy network satisfies
constraints. Computing the returns is based on solving a system of linear
equations (equality constraints) or a constrained quadratic program (inequality
constraints). Simulation results suggest that adding constraints (external
information) to the learning can improve learning in terms of speed and safety
reasonably if constraints are appropriately selected. The efficiency of the
constrained learning was demonstrated with a shallow and wide ReLU network in
the Cartpole and Lunar Lander OpenAI gym environments. The main novelty of the
paper is giving a practical use of the neural tangent kernel in reinforcement
learning.
- Abstract(参考訳): 本稿では,制約付きポリシー勾配アルゴリズムを提案する。
安全学習のための制約を以下の手順で導入する。
第一に、学習を遅くする(遅延学習)ことで、政策勾配定理とニューラル・タンジェント・カーネルの助けを借りて、エピソード的政策変化を計算することができる。
これにより、任意の状態におけるポリシーの評価も可能となる。
同じ精神では、学習をガイドすることができ、所望の行動確率が規定された状態でエピソードバッチを増強することで安全性を確保することができる。
最後に、ポリシーネットワークが制約を満たすように、これらの特定の状態-作用ペアで将来の報酬(リターン)の内在的割引和を計算することができる。
リターンの計算は線形方程式(等式制約)や制約付き二次プログラム(等式制約)のシステムを解くことに基づいている。
シミュレーションの結果,学習に制約(外部情報)を加えることで,制約が適切に選択された場合,学習のスピードと安全性が向上することが示唆された。
制約付き学習の効率性は,カートポールおよびルナーランダーのopenai体育館環境において,浅く幅の広いreluネットワークを用いて実証された。
本論文の主な新規性は、強化学習におけるニューラルネットワークカーネルの実用的利用である。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Safe Reinforcement Learning for Constrained Markov Decision Processes with Stochastic Stopping Time [0.6554326244334868]
安全制約付きマルコフ決定過程に対するオンライン強化学習アルゴリズムを提案する。
学習方針は高い信頼を持って安全であることを示す。
また、プロキシセットと呼ばれる状態空間のサブセットを定義することで、効率的な探索を実現することができることを示す。
論文 参考訳(メタデータ) (2024-03-23T20:22:30Z) - Truly No-Regret Learning in Constrained MDPs [61.78619476991494]
未知のCMDPで学習するモデルベース原始双対アルゴリズムを提案する。
提案アルゴリズムは,誤差のキャンセルを伴わずにサブ線形後悔を実現する。
論文 参考訳(メタデータ) (2024-02-24T09:47:46Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Policy Gradients for Probabilistic Constrained Reinforcement Learning [13.441235221641717]
本稿では、強化学習(RL)における安全な政策学習の問題について考察する。
我々は,システムの状態を高い確率で安全に維持する政策を設計することを目指している。
論文 参考訳(メタデータ) (2022-10-02T18:16:33Z) - Learn Zero-Constraint-Violation Policy in Model-Free Constrained
Reinforcement Learning [7.138691584246846]
本稿では,安全指向エネルギー関数を用いてポリシー更新を限定するセーフセットアクタクリティカル(SSAC)アルゴリズムを提案する。
安全指数は、潜在的に危険な行動のために急速に増加するように設計されている。
我々は、値関数の学習と同様に、モデルのない方法でエネルギー関数を学習できると主張する。
論文 参考訳(メタデータ) (2021-11-25T07:24:30Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。