論文の概要: A Survey of Constraint Formulations in Safe Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2402.02025v1
- Date: Sat, 3 Feb 2024 04:40:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 22:51:56.545609
- Title: A Survey of Constraint Formulations in Safe Reinforcement Learning
- Title(参考訳): 安全強化学習における制約定式化の検討
- Authors: Akifumi Wachi, Xun Shen, Yanan Sui
- Abstract要約: 安全な強化学習は 実験データからエージェントのポリシーを 安全に最適化する強力なパラダイムです
一般的な安全なRLアプローチは、制約付き基準に基づいており、安全制約の下で期待される累積報酬を最大化する問題を解決する。
本稿では,各定式化に特化して設計されたアルゴリズムのキュレートされた選択とともに,代表的制約定式化の包括的レビューを行う。
我々は,安全強化学習研究の現状と今後の方向性について論じる。
- 参考スコア(独自算出の注目度): 17.52609277902876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring safety is critical when applying reinforcement learning (RL) to
real-world problems. Consequently, safe RL emerges as a fundamental and
powerful paradigm for safely optimizing an agent's policy from experimental
data. A popular safe RL approach is based on a constrained criterion, which
solves the problem of maximizing expected cumulative reward under safety
constraints. Though there has been recently a surge of such attempts to achieve
safety in RL, a systematic understanding of the field is difficult due to 1)
the diversity of constraint representations and 2) little discussion of their
interrelations. To address this knowledge gap, we provide a comprehensive
review of representative constraint formulations, along with a curated
selection of algorithms specifically designed for each formulation.
Furthermore, we elucidate the theoretical underpinnings that reveal the
mathematical mutual relations among common problem formulations. We conclude
with a discussion of the current state and future directions of safe
reinforcement learning research.
- Abstract(参考訳): 実世界の問題に強化学習(RL)を適用する場合、安全性を確保することが重要である。
その結果、安全なRLは実験データからエージェントのポリシーを安全に最適化するための基本的で強力なパラダイムとして現れる。
一般的なsafe rlアプローチは、安全制約下での期待累積報酬を最大化する問題を解決する制約付き基準に基づいている。
近年、RLの安全性を達成するための試みが急増しているが、この分野の体系的な理解は困難である。
1)制約表現の多様性
2) 相互関係についてはほとんど議論していない。
この知識のギャップに対処するために,各定式化用に特別に設計されたアルゴリズムのキュレートされた選択とともに,代表的な制約定式化を包括的にレビューする。
さらに,共通問題定式化の数学的相互関係を明らかにする理論的基盤を解明する。
最後に,安全強化学習研究の現状と今後の方向性について考察する。
関連論文リスト
- Concurrent Learning of Policy and Unknown Safety Constraints in
Reinforcement Learning [4.8951183832371]
強化学習(Reinforcement Learning, RL)は、過去数十年にわたって、幅広い領域で意思決定に革命をもたらした。
しかし、現実のシナリオにRLポリシーをデプロイすることは、安全性を確保する上で重要な課題である。
従来の安全RLアプローチは、事前に定義された安全制約を政策学習プロセスに組み込むことに重点を置いてきた。
本稿では,安全なRL制御ポリシを同時に学習し,その環境の未知の安全制約パラメータを同定する手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T20:01:15Z) - Gradient Shaping for Multi-Constraint Safe Reinforcement Learning [31.297400160104853]
オンライン安全強化学習(RL)は、環境との対話を通じて制約を満たしながらタスク効率を最大化する政策を訓練する。
本稿では,MCセーフなRLアルゴリズムのための統一フレームワークを提案する。
一般ラグランジアンベースの安全なRLアルゴリズムのためのグラディエント・シェーピング(GradS)法を導入し、報酬と制約満足度の両方の観点からトレーニング効率を向上させる。
論文 参考訳(メタデータ) (2023-12-23T00:55:09Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization [1.3597551064547502]
本研究では,新しい安全強化学習アルゴリズム,セーフティ・クリティカル・ポリシー・オプティマイゼーションを導入する。
本研究では,安全制約に違反して得られる報酬を無効化する機構である安全評論家を定義した。
理論的解析により,提案アルゴリズムは安全制約への付着と報酬の最大化との間のトレードオフを自動的にバランスできることが示された。
論文 参考訳(メタデータ) (2023-11-01T22:12:50Z) - Probabilistic Constraint for Safety-Critical Reinforcement Learning [13.502008069967552]
確率的制約付き強化学習(RL)における安全な政策学習の課題について考察する。
SPG-Actor-Critic は SPG-REINFORCE よりも低い分散をもたらす。
両SPGを利用して安全なポリシを学習できるSafe Primal-Dualアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-29T19:41:56Z) - Joint Learning of Policy with Unknown Temporal Constraints for Safe
Reinforcement Learning [0.0]
安全制約と最適なRLポリシーを同時に学習するフレームワークを提案する。
この枠組みは、我々の共同学習プロセスの収束を確立する定理によって支えられている。
当社のフレームワークをグリッド環境で紹介し、許容される安全性制約とRLポリシーの両方をうまく識別した。
論文 参考訳(メタデータ) (2023-04-30T21:15:07Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Reinforcement Learning with Stepwise Fairness Constraints [50.538878453547966]
本稿では,段階的公正性制約を伴う強化学習について紹介する。
我々は、ポリシーの最適性と公正性違反に関して、強力な理論的保証を持つ学習アルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-11-08T04:06:23Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。