論文の概要: Learning with Safety Constraints: Sample Complexity of Reinforcement
Learning for Constrained MDPs
- arxiv url: http://arxiv.org/abs/2008.00311v3
- Date: Mon, 1 Mar 2021 20:51:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 00:19:52.305987
- Title: Learning with Safety Constraints: Sample Complexity of Reinforcement
Learning for Constrained MDPs
- Title(参考訳): 安全制約による学習:拘束型MDPにおける強化学習の複雑さ
- Authors: Aria HasanzadeZonuzy, Archana Bura, Dileep Kalathil and Srinivas
Shakkottai
- Abstract要約: 我々は,安全性の制約と,所望の精度を確保するために必要なサンプル数との関係を特徴付ける。
我々の主な発見は、制約のない状態の最もよく知られた境界と比較して、制約されたRLアルゴリズムのサンプルは制約の数に対数的な因子によって増加することである。
- 参考スコア(独自算出の注目度): 13.922754427601491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many physical systems have underlying safety considerations that require that
the policy employed ensures the satisfaction of a set of constraints. The
analytical formulation usually takes the form of a Constrained Markov Decision
Process (CMDP). We focus on the case where the CMDP is unknown, and RL
algorithms obtain samples to discover the model and compute an optimal
constrained policy. Our goal is to characterize the relationship between safety
constraints and the number of samples needed to ensure a desired level of
accuracy -- both objective maximization and constraint satisfaction -- in a PAC
sense. We explore two classes of RL algorithms, namely, (i) a generative model
based approach, wherein samples are taken initially to estimate a model, and
(ii) an online approach, wherein the model is updated as samples are obtained.
Our main finding is that compared to the best known bounds of the unconstrained
regime, the sample complexity of constrained RL algorithms are increased by a
factor that is logarithmic in the number of constraints, which suggests that
the approach may be easily utilized in real systems.
- Abstract(参考訳): 多くの物理的なシステムには、一連の制約の満足度を保証するためのポリシーが必要とされる、基本的な安全上の考慮事項がある。
解析的定式化は通常、制約マルコフ決定過程(CMDP)の形式をとる。
CMDPが未知の場合に着目し、RLアルゴリズムはモデルを発見し、最適な制約付きポリシーを計算するためのサンプルを取得する。
当社の目標は、安全制約と、目標の最大化と制約満足度という、望ましいレベルの正確性を保証するために必要なサンプル数との関係を、pacの意味で特徴付けることです。
RLアルゴリズムの2つのクラス、すなわち
(i)生成モデルに基づくアプローチで、まずはモデルを推定するためにサンプルを取ります。
(ii) サンプルの取得によってモデルが更新されるオンラインアプローチ。
我々の主な発見は、制約のない状態の最もよく知られた境界と比較して、制約数に対数的な因子によって制約付きRLアルゴリズムのサンプル複雑性が増大することであり、実際のシステムで容易に利用できることを示唆している。
関連論文リスト
- Model-Free Active Exploration in Reinforcement Learning [53.786439742572995]
強化学習における探索問題について検討し,新しいモデルフリーソリューションを提案する。
我々の戦略は、最先端の探査アプローチよりも高速に効率的な政策を特定できる。
論文 参考訳(メタデータ) (2024-06-30T19:00:49Z) - Model-Free Robust Reinforcement Learning with Sample Complexity Analysis [16.477827600825428]
本稿では,マルチレベルモンテカルロ法を用いたモデルフリーDR-RLアルゴリズムを提案する。
我々は,全変動,チ二乗発散,KL発散によって定義される不確実性集合のアルゴリズムを開発する。
注目すべきは、我々のアルゴリズムは、有限サンプルの複雑さを特徴とする初めてのモデルフリーDR-RLアプローチである。
論文 参考訳(メタデータ) (2024-06-24T19:35:26Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Safe Exploration Incurs Nearly No Additional Sample Complexity for
Reward-free RL [43.672794342894946]
Reward-free reinforcement learning (RF-RL) は、未知の環境を探索するランダムなアクションテイクに依存する。
このような安全な探索要求が、得られた政策の計画における望ましい最適性を達成するために、対応するサンプルの複雑さにどのように影響するかは、いまだ不明である。
本稿では,Safe reWard-frEe ExploraTion (SWEET) フレームワークを提案し,Tabular-SWEET と Low-rank-SWEET というアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-28T15:00:45Z) - Sample Complexity of Robust Reinforcement Learning with a Generative
Model [0.0]
本稿では,モデルに基づく強化学習(RL)アルゴリズムを提案する。
我々は,全変動距離,カイ二乗発散,KL発散の3種類の不確実性集合を考察した。
この結果に加えて,ロバストポリシの利点に関する公式な分析的議論も提示する。
論文 参考訳(メタデータ) (2021-12-02T18:55:51Z) - Safe Continuous Control with Constrained Model-Based Policy Optimization [0.0]
制約付き高次元制御のためのモデルベースセーフ探索アルゴリズムを提案する。
また、モデル生成データによるポリシー探索を高速化する実用的なアルゴリズムも導入する。
論文 参考訳(メタデータ) (2021-04-14T15:20:55Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。