論文の概要: Provably Efficient RL for Linear MDPs under Instantaneous Safety Constraints in Non-Convex Feature Spaces
- arxiv url: http://arxiv.org/abs/2502.18655v1
- Date: Tue, 25 Feb 2025 21:32:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:57:05.745996
- Title: Provably Efficient RL for Linear MDPs under Instantaneous Safety Constraints in Non-Convex Feature Spaces
- Title(参考訳): 非凸特徴空間における瞬時安全制約下における線形MDPの高効率RL
- Authors: Amirhossein Roknilamouki, Arnob Ghosh, Ming Shi, Fatemeh Nourzad, Eylem Ekici, Ness B. Shroff,
- Abstract要約: 制約のある強化タスクでは、エラーを避けることが重要です。
本稿では,制約を適切に解決する新しい手法を開発する。
- 参考スコア(独自算出の注目度): 27.07625013423198
- License:
- Abstract: In Reinforcement Learning (RL), tasks with instantaneous hard constraints present significant challenges, particularly when the decision space is non-convex or non-star-convex. This issue is especially relevant in domains like autonomous vehicles and robotics, where constraints such as collision avoidance often take a non-convex form. In this paper, we establish a regret bound of $\tilde{\mathcal{O}}\bigl(\bigl(1 + \tfrac{1}{\tau}\bigr) \sqrt{\log(\tfrac{1}{\tau}) d^3 H^4 K} \bigr)$, applicable to both star-convex and non-star-convex cases, where $d$ is the feature dimension, $H$ the episode length, $K$ the number of episodes, and $\tau$ the safety threshold. Moreover, the violation of safety constraints is zero with high probability throughout the learning process. A key technical challenge in these settings is bounding the covering number of the value-function class, which is essential for achieving value-aware uniform concentration in model-free function approximation. For the star-convex setting, we develop a novel technique called Objective Constraint-Decomposition (OCD) to properly bound the covering number. This result also resolves an error in a previous work on constrained RL. In non-star-convex scenarios, where the covering number can become infinitely large, we propose a two-phase algorithm, Non-Convex Safe Least Squares Value Iteration (NCS-LSVI), which first reduces uncertainty about the safe set by playing a known safe policy. After that, it carefully balances exploration and exploitation to achieve the regret bound. Finally, numerical simulations on an autonomous driving scenario demonstrate the effectiveness of NCS-LSVI.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)では、時間的制約のあるタスクは、特に決定空間が非凸または非星凸である場合、重大な課題を示す。
この問題は、衝突回避などの制約が非凸形になることが多い自動運転車やロボット工学のような分野に特に関係している。
本稿では, 星凸と非星凸の両方に適用可能な, $\tilde{\mathcal{O}}\bigl(\bigl(1 + \tfrac{1}{\tau}\bigr) \sqrt{\log(\tfrac{1}{\tau}) d^3 H^4 K} \bigr)$, $d$は特徴次元, $H$はエピソードの長さ, $K$はエピソード数, $\tau$は安全しきい値とする。
さらに,安全性制約の違反は学習過程を通じて高い確率でゼロとなる。
これらの設定における重要な技術的課題は、モデルフリー関数近似における値認識の一様濃度を達成するのに不可欠である値関数クラスの被覆数を限定することである。
恒星凸設定のために,対象制約分解(OCD)と呼ばれる新しい手法を開発し,その被覆数を適切に拘束する。
この結果は、制約付きRLに関する以前の研究における誤りも解決する。
被被覆数が無限大となるノンスターコンベックスシナリオでは、既知の安全ポリシーを実行することによって安全設定の不確実性を最初に低減する二相アルゴリズム、Non-Convex Safe Least Squares Value Iteration (NCS-LSVI)を提案する。
その後、探検と搾取のバランスを慎重に調整し、後悔の限界を達成します。
最後に、自律運転シナリオにおける数値シミュレーションにより、NAS-LSVIの有効性を示す。
関連論文リスト
- Achieving Constant Regret in Linear Markov Decision Processes [57.34287648914407]
我々は不特定線形マルコフ決定過程(MDP)に対するアルゴリズムCert-LSVI-UCBを導入する。
Cert-LSVI-UCB は $tildemathcalO(d3H5/Delta)$ の累積後悔を高い確率で示し、不特定度 $zeta$ が $tildemathcalO(Delta / (sqrtdH2))$ 以下であることを示す。
論文 参考訳(メタデータ) (2024-04-16T17:23:19Z) - Safe Reinforcement Learning with Instantaneous Constraints: The Role of
Aggressive Exploration [20.630973009400574]
本稿では,線形関数近似を用いた安全強化学習(セーフRL)について,短時間の制約下で検討する。
提案アルゴリズムであるLSVI-AEは,コスト関数が線形であれば$tildecO(sqrtd3H4K)$ハード制約違反,コスト関数がRKHSに属する場合は$cO(Hgamma_K sqrtK)$ハード制約違反を実現する。
論文 参考訳(メタデータ) (2023-12-22T06:45:45Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - A Near-Optimal Algorithm for Safe Reinforcement Learning Under
Instantaneous Hard Constraints [43.895798638743784]
我々は,安全でない状態と動作を持つマルコフ決定過程に対して,第1次近似安全RLアルゴリズムを開発した。
これは、その設定における最先端の後悔と密に一致する後悔の$tildeO(fracd H3 sqrtdKDelta_c)$を達成する。
また、$tildeOmega(maxdH sqrtK, fracHDelta_c2)$の低いバウンドも提供しています。
論文 参考訳(メタデータ) (2023-02-08T23:42:04Z) - First-Order Regret in Reinforcement Learning with Linear Function
Approximation: A Robust Estimation Approach [57.570201404222935]
我々は,大規模状態空間を用いた強化学習において,$mathcalO(sqrtV_1star K)$として,後悔のスケーリングが得られることを示す。
この結果を得るためには,少なくとも2乗推定に基づく既存手法は不十分であることを示す。
論文 参考訳(メタデータ) (2021-12-07T00:29:57Z) - Safe Exploration for Constrained Reinforcement Learning with Provable
Guarantees [2.379828460137829]
そこで我々は,OPSRL(Optimistic-Pessimistic Safe Reinforcement Learning)アルゴリズムと呼ぶモデルベースの安全なRLアルゴリズムを提案する。
学習中の安全性制約に違反することなく, $tildemathcalO(S2sqrtA H7K/ (barC - barC_b)$ cumulative regretを達成できることを示す。
論文 参考訳(メタデータ) (2021-12-01T23:21:48Z) - Safe Reinforcement Learning with Linear Function Approximation [48.75026009895308]
我々は、状態と行動の未知の線形コスト関数として安全を導入し、それは常に一定の閾値以下でなければならない。
次に,線形関数近似を用いたマルコフ決定過程(MDP)について,SLUCB-QVIおよびRSLUCB-QVIと呼ぶアルゴリズムを提案する。
SLUCB-QVI と RSLUCB-QVI は、Emphno safety violation で $tildemathcalOleft(kappasqrtd3H3Tright)$ regret, almost matching を達成した。
論文 参考訳(メタデータ) (2021-06-11T08:46:57Z) - Safe Learning under Uncertain Objectives and Constraints [66.05180398174286]
我々は、テキスト不明で安全クリティカルな制約の下で、非テクスト無知かつ安全クリティカルな最適化問題を考察する。
このような問題は、ロボティクス、製造、医療などの様々な領域で自然に発生する。
我々の分析の重要な要素は、安全な最適化の文脈で収縮と呼ばれる手法を導入し、適用することである。
論文 参考訳(メタデータ) (2020-06-23T20:51:00Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。