論文の概要: On Bellman's principle of optimality and Reinforcement learning for
safety-constrained Markov decision process
- arxiv url: http://arxiv.org/abs/2302.13152v3
- Date: Wed, 12 Jul 2023 11:11:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 19:36:22.176628
- Title: On Bellman's principle of optimality and Reinforcement learning for
safety-constrained Markov decision process
- Title(参考訳): 安全制約マルコフ決定過程に対するベルマンの最適性と強化学習原理について
- Authors: Rahul Misra, Rafa{\l} Wisniewski and Carsten Skovmose Kalles{\o}e
- Abstract要約: 安全強化学習の枠組みである安全制約付きマルコフ決定プロセスの最適性について検討する。
データからラグランジアンを学習するための改良された$Q$-learningアルゴリズムを構築した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We study optimality for the safety-constrained Markov decision process which
is the underlying framework for safe reinforcement learning. Specifically, we
consider a constrained Markov decision process (with finite states and finite
actions) where the goal of the decision maker is to reach a target set while
avoiding an unsafe set(s) with certain probabilistic guarantees. Therefore the
underlying Markov chain for any control policy will be multichain since by
definition there exists a target set and an unsafe set. The decision maker also
has to be optimal (with respect to a cost function) while navigating to the
target set. This gives rise to a multi-objective optimization problem. We
highlight the fact that Bellman's principle of optimality may not hold for
constrained Markov decision problems with an underlying multichain structure
(as shown by the counterexample due to Haviv. We resolve the counterexample by
formulating the aforementioned multi-objective optimization problem as a
zero-sum game and thereafter construct an asynchronous value iteration scheme
for the Lagrangian (similar to Shapley's algorithm). Finally, we consider the
reinforcement learning problem for the same and construct a modified
$Q$-learning algorithm for learning the Lagrangian from data. We also provide a
lower bound on the number of iterations required for learning the Lagrangian
and corresponding error bounds.
- Abstract(参考訳): 安全強化学習の枠組みである安全制約付きマルコフ決定プロセスの最適性について検討する。
具体的には、(有限状態と有限動作を持つ)マルコフ決定過程において、決定者のゴールは、ある確率的保証のある安全でない集合を避けながら、目標集合に到達することである。
したがって、任意の制御ポリシーに対するマルコフ連鎖は、定義によってターゲット集合と安全でない集合が存在するため、多重鎖となる。
意思決定者は、目標セットにナビゲートしながら(コスト関数に関して)最適である必要がある。
これは多目的最適化の問題を引き起こす。
ベルマンの最適性原理は、(ハビブによる反例で示されるように)下層の多重鎖構造を持つマルコフ決定問題に制約を負わないという事実を強調した。
上記の多目的最適化問題をゼロサムゲームとして定式化し、その後ラグランジアンに対する非同期値反復スキームを構築する(シェープリーのアルゴリズムと同様)。
最後に,強化学習問題についても検討し,データからラグランジアンを学習するための修正された$q$-learningアルゴリズムを構築した。
また、ラグランジアンとそれに対応する誤差境界の学習に必要な反復数にもより低い境界を与える。
関連論文リスト
- Robust Q-Learning for finite ambiguity sets [2.3020018305241337]
分布的に堅牢なマルコフ決定問題を解くための新しい$Q$-learningアルゴリズムを提案する。
我々のアプローチは、ある基準測度の周りの球のあいまいさ集合を含むよく研究されたケースを越えている。
論文 参考訳(メタデータ) (2024-07-05T05:19:36Z) - Reinforcement Learning with Non-Cumulative Objective [12.906500431427716]
強化学習では、その目的は、ほぼ常にプロセスに沿った報酬に対する累積関数として定義される。
本稿では,そのような目的を最適化するための既存アルゴリズムの修正を提案する。
論文 参考訳(メタデータ) (2023-07-11T01:20:09Z) - A Unifying Framework for Online Optimization with Long-Term Constraints [62.35194099438855]
我々は,意思決定者が長期的制約の対象となる一連の意思決定をしなければならないオンライン学習問題について検討する。
目標は、全報酬を最大化し、同時に、$T$ラウンド全体で小さな累積違反を達成することである。
本稿では,この一般クラス問題に対して,未知のモデルに基づいて報酬と制約が選択された場合と,各ラウンドで敵が選択した場合の双方において,最良世界型アルゴリズムを提示する。
論文 参考訳(メタデータ) (2022-09-15T16:59:19Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Algorithm for Constrained Markov Decision Process with Linear
Convergence [55.41644538483948]
エージェントは、そのコストに対する複数の制約により、期待される累積割引報酬を最大化することを目的としている。
エントロピー正規化ポリシーとベイダの二重化という2つの要素を統合した新しい双対アプローチが提案されている。
提案手法は(線形速度で)大域的最適値に収束することが示されている。
論文 参考訳(メタデータ) (2022-06-03T16:26:38Z) - Recursive Constraints to Prevent Instability in Constrained
Reinforcement Learning [16.019477271828745]
マルコフ決定プロセスにおける決定論的政策の発見という課題を考察する。
この種の問題は難しいことが知られているが、決定論と一様最適性の要求が組み合わされば、学習不安定が生じる。
本稿では,学習不安定性を防止するための制約付き強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-20T02:33:24Z) - Safe Online Bid Optimization with Return-On-Investment and Budget
Constraints subject to Uncertainty [87.81197574939355]
最適化問題と学習問題の両方について検討する。
我々は、潜在的に線形な数の制約違反を犠牲にして、サブ線形後悔を保証するアルゴリズム、すなわちGCBを提供する。
より興味深いことに、我々はGCB_safe(psi,phi)というアルゴリズムを提供し、サブ線形擬似回帰と安全性w.h.p.の両方を、耐性 psi と phi を受け入れるコストで保証する。
論文 参考訳(メタデータ) (2022-01-18T17:24:20Z) - Concave Utility Reinforcement Learning with Zero-Constraint Violations [43.29210413964558]
本稿では,凸制約を伴うCURL(Concave utility reinforcement Learning)の問題点について考察する。
制約違反をゼロにするモデルベース学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:13:33Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - CertRL: Formalizing Convergence Proofs for Value and Policy Iteration in
Coq [1.154957229836278]
強化学習アルゴリズムは,長期報酬を最適化することにより,確率的環境における逐次的意思決定問題を解決する。
本稿では、有限状態マルコフ決定過程に対する値とポリシーの反復という、2つの正準強化学習アルゴリズムの形式化を開発する。
CertRLライブラリは、Markov決定プロセスと強化学習アルゴリズムに関する特性を証明するための一般的なフレームワークを提供する。
論文 参考訳(メタデータ) (2020-09-23T22:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。