論文の概要: Safe Reinforcement Learning with Instantaneous Constraints: The Role of
Aggressive Exploration
- arxiv url: http://arxiv.org/abs/2312.14470v1
- Date: Fri, 22 Dec 2023 06:45:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 15:49:16.426506
- Title: Safe Reinforcement Learning with Instantaneous Constraints: The Role of
Aggressive Exploration
- Title(参考訳): 即時制約による安全強化学習:積極的な探索の役割
- Authors: Honghao Wei, Xin Liu, Lei Ying
- Abstract要約: 本稿では,線形関数近似を用いた安全強化学習(セーフRL)について,短時間の制約下で検討する。
提案アルゴリズムであるLSVI-AEは,コスト関数が線形であれば$tildecO(sqrtd3H4K)$ハード制約違反,コスト関数がRKHSに属する場合は$cO(Hgamma_K sqrtK)$ハード制約違反を実現する。
- 参考スコア(独自算出の注目度): 20.630973009400574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies safe Reinforcement Learning (safe RL) with linear function
approximation and under hard instantaneous constraints where unsafe actions
must be avoided at each step. Existing studies have considered safe RL with
hard instantaneous constraints, but their approaches rely on several key
assumptions: $(i)$ the RL agent knows a safe action set for {\it every} state
or knows a {\it safe graph} in which all the state-action-state triples are
safe, and $(ii)$ the constraint/cost functions are {\it linear}. In this paper,
we consider safe RL with instantaneous hard constraints without assumption
$(i)$ and generalize $(ii)$ to Reproducing Kernel Hilbert Space (RKHS). Our
proposed algorithm, LSVI-AE, achieves $\tilde{\cO}(\sqrt{d^3H^4K})$ regret and
$\tilde{\cO}(H \sqrt{dK})$ hard constraint violation when the cost function is
linear and $\cO(H\gamma_K \sqrt{K})$ hard constraint violation when the cost
function belongs to RKHS. Here $K$ is the learning horizon, $H$ is the length
of each episode, and $\gamma_K$ is the information gain w.r.t the kernel used
to approximate cost functions. Our results achieve the optimal dependency on
the learning horizon $K$, matching the lower bound we provide in this paper and
demonstrating the efficiency of LSVI-AE. Notably, the design of our approach
encourages aggressive policy exploration, providing a unique perspective on
safe RL with general cost functions and no prior knowledge of safe actions,
which may be of independent interest.
- Abstract(参考訳): 本稿では,線形関数近似による安全強化学習(safe rl)と,各ステップで安全でない動作を回避すべき厳密な瞬時制約について検討する。
既存の研究では、厳密な瞬間制約を持つ安全なRLが検討されているが、そのアプローチはいくつかの重要な仮定に依存している。
(i)$ the rl agent は {\it every} 状態の安全なアクションセットを知っているか、あるいはすべての状態アクション状態トリプルが安全であるような {\it safe graph} を知っている。
(ii)$ 制約/コスト関数は線型である。
本稿では,仮定なしで短時間の制約付き安全なRLを考える。
(i)$ と generalize $
(ii)Kernel Hilbert Space (RKHS)を再生するために。
提案アルゴリズムであるLSVI-AEは,コスト関数が線形な場合のハード制約違反を$\tilde{\cO}(\sqrt{d^3H^4K})$後悔と$\tilde{\cO}(H \sqrt{dK})$コスト関数がRKHSに属する場合のハード制約違反を$\cO(H\gamma_K \sqrt{K})$ハード制約違反を達成している。
ここで$K$は学習の地平線、$H$は各エピソードの長さ、$\gamma_K$はコスト関数の近似に使用されるカーネルの情報ゲインである。
本論文では,学習用地平線への最適依存性をK$で実現し,LSVI-AEの効率性を実証した。
特に,本手法の設計は積極的政策探索を奨励し,一般費用関数による安全RLのユニークな視点と,独立性のある安全行動に関する事前の知識を提供する。
関連論文リスト
- Provably Safe Reinforcement Learning with Step-wise Violation
Constraints [26.020907891512596]
我々は、より厳格なステップワイド違反を考慮し、安全な行動の存在を前提としない。
本稿では,ステップワイドティルデO(sqrtST)=ステップワイドティルデO(sqrtH3SAT)$後悔を保証する新しいアルゴリズムSUCBVIを提案する。
また、ステップワイドな違反制約を伴う新たな安全無報酬探索問題についても検討する。
論文 参考訳(メタデータ) (2023-02-13T02:56:04Z) - A Near-Optimal Algorithm for Safe Reinforcement Learning Under
Instantaneous Hard Constraints [43.895798638743784]
我々は,安全でない状態と動作を持つマルコフ決定過程に対して,第1次近似安全RLアルゴリズムを開発した。
これは、その設定における最先端の後悔と密に一致する後悔の$tildeO(fracd H3 sqrtdKDelta_c)$を達成する。
また、$tildeOmega(maxdH sqrtK, fracHDelta_c2)$の低いバウンドも提供しています。
論文 参考訳(メタデータ) (2023-02-08T23:42:04Z) - Near-Minimax-Optimal Risk-Sensitive Reinforcement Learning with CVaR [58.40575099910538]
本研究は,リスク許容度が$tau$のCVaR(Conditional Value at Risk)の目的に着目し,リスクに敏感な強化学習(RL)について検討する。
ミニマックスCVaRの後悔率は$Omega(sqrttau-1AK)$で、$A$はアクションの数、$K$はエピソード数である。
我々は,このアルゴリズムが連続性仮定の下で$widetilde O(tau-1sqrtSAK)$の最適後悔を達成し,一般に近似することを示す。
論文 参考訳(メタデータ) (2023-02-07T02:22:31Z) - SAUTE RL: Almost Surely Safe Reinforcement Learning Using State
Augmentation [63.25418599322092]
安全性の制約をほぼ確実に(あるいは確率1で)満たすことは、実生活アプリケーションにおける強化学習(RL)の展開に不可欠である。
安全性向上型マルコフ決定プロセス(MDP)の導入による課題に対処する。
Saute MDPがSafe Augmentationの問題を、新機能の異なる視点から見ることができることを示す。
論文 参考訳(メタデータ) (2022-02-14T08:57:01Z) - Safe Exploration for Constrained Reinforcement Learning with Provable
Guarantees [2.379828460137829]
そこで我々は,OPSRL(Optimistic-Pessimistic Safe Reinforcement Learning)アルゴリズムと呼ぶモデルベースの安全なRLアルゴリズムを提案する。
学習中の安全性制約に違反することなく, $tildemathcalO(S2sqrtA H7K/ (barC - barC_b)$ cumulative regretを達成できることを示す。
論文 参考訳(メタデータ) (2021-12-01T23:21:48Z) - Safe Reinforcement Learning with Linear Function Approximation [48.75026009895308]
我々は、状態と行動の未知の線形コスト関数として安全を導入し、それは常に一定の閾値以下でなければならない。
次に,線形関数近似を用いたマルコフ決定過程(MDP)について,SLUCB-QVIおよびRSLUCB-QVIと呼ぶアルゴリズムを提案する。
SLUCB-QVI と RSLUCB-QVI は、Emphno safety violation で $tildemathcalOleft(kappasqrtd3H3Tright)$ regret, almost matching を達成した。
論文 参考訳(メタデータ) (2021-06-11T08:46:57Z) - Safe Learning under Uncertain Objectives and Constraints [66.05180398174286]
我々は、テキスト不明で安全クリティカルな制約の下で、非テクスト無知かつ安全クリティカルな最適化問題を考察する。
このような問題は、ロボティクス、製造、医療などの様々な領域で自然に発生する。
我々の分析の重要な要素は、安全な最適化の文脈で収縮と呼ばれる手法を導入し、適用することである。
論文 参考訳(メタデータ) (2020-06-23T20:51:00Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。