論文の概要: Joint Learning of Policy with Unknown Temporal Constraints for Safe
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.00576v1
- Date: Sun, 30 Apr 2023 21:15:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 14:38:58.709016
- Title: Joint Learning of Policy with Unknown Temporal Constraints for Safe
Reinforcement Learning
- Title(参考訳): 安全強化学習のための未知の時間制約による政策の共同学習
- Authors: Lunet Yifru and Ali Baheri
- Abstract要約: 安全制約と最適なRLポリシーを同時に学習するフレームワークを提案する。
この枠組みは、我々の共同学習プロセスの収束を確立する定理によって支えられている。
当社のフレームワークをグリッド環境で紹介し、許容される安全性制約とRLポリシーの両方をうまく識別した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many real-world applications, safety constraints for reinforcement
learning (RL) algorithms are either unknown or not explicitly defined. We
propose a framework that concurrently learns safety constraints and optimal RL
policies in such environments, supported by theoretical guarantees. Our
approach merges a logically-constrained RL algorithm with an evolutionary
algorithm to synthesize signal temporal logic (STL) specifications. The
framework is underpinned by theorems that establish the convergence of our
joint learning process and provide error bounds between the discovered policy
and the true optimal policy. We showcased our framework in grid-world
environments, successfully identifying both acceptable safety constraints and
RL policies while demonstrating the effectiveness of our theorems in practice.
- Abstract(参考訳): 多くの実世界のアプリケーションでは、強化学習(RL)アルゴリズムの安全性の制約は未知あるいは明示的に定義されていない。
本稿では,これらの環境において,安全制約と最適なrlポリシーを同時に学習する枠組みを提案する。
提案手法は,信号時間論理(STL)仕様を合成するために,論理制約付きRLアルゴリズムと進化的アルゴリズムを組み合わせる。
このフレームワークは、我々の共同学習プロセスの収束を確立し、発見されたポリシーと真の最適ポリシーの間の誤差境界を提供する定理によって支えられている。
我々は,我々の枠組みをグリッドワールド環境で実証し,許容される安全制約とRLポリシーの両方を実証し,実際に定理の有効性を実証した。
関連論文リスト
- Concurrent Learning of Policy and Unknown Safety Constraints in
Reinforcement Learning [4.8951183832371]
強化学習(Reinforcement Learning, RL)は、過去数十年にわたって、幅広い領域で意思決定に革命をもたらした。
しかし、現実のシナリオにRLポリシーをデプロイすることは、安全性を確保する上で重要な課題である。
従来の安全RLアプローチは、事前に定義された安全制約を政策学習プロセスに組み込むことに重点を置いてきた。
本稿では,安全なRL制御ポリシを同時に学習し,その環境の未知の安全制約パラメータを同定する手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T20:01:15Z) - A Survey of Constraint Formulations in Safe Reinforcement Learning [17.52609277902876]
安全な強化学習は 実験データからエージェントのポリシーを 安全に最適化する強力なパラダイムです
一般的な安全なRLアプローチは、制約付き基準に基づいており、安全制約の下で期待される累積報酬を最大化する問題を解決する。
本稿では,各定式化に特化して設計されたアルゴリズムのキュレートされた選択とともに,代表的制約定式化の包括的レビューを行う。
我々は,安全強化学習研究の現状と今後の方向性について論じる。
論文 参考訳(メタデータ) (2024-02-03T04:40:31Z) - Gradient Shaping for Multi-Constraint Safe Reinforcement Learning [31.297400160104853]
オンライン安全強化学習(RL)は、環境との対話を通じて制約を満たしながらタスク効率を最大化する政策を訓練する。
本稿では,MCセーフなRLアルゴリズムのための統一フレームワークを提案する。
一般ラグランジアンベースの安全なRLアルゴリズムのためのグラディエント・シェーピング(GradS)法を導入し、報酬と制約満足度の両方の観点からトレーニング効率を向上させる。
論文 参考訳(メタデータ) (2023-12-23T00:55:09Z) - Compositional Policy Learning in Stochastic Control Systems with Formal
Guarantees [0.0]
強化学習は複雑な制御タスクに対するニューラルネットワークポリシーの学習において有望な結果を示している。
本研究では,環境におけるニューラルネットワークポリシーの構成を学習するための新しい手法を提案する。
正式な証明書は、ポリシーの行動に関する仕様が望ましい確率で満たされていることを保証します。
論文 参考訳(メタデータ) (2023-12-03T17:04:18Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Reinforcement Learning with Stepwise Fairness Constraints [50.538878453547966]
本稿では,段階的公正性制約を伴う強化学習について紹介する。
我々は、ポリシーの最適性と公正性違反に関して、強力な理論的保証を持つ学習アルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-11-08T04:06:23Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Deep Reinforcement Learning with Robust and Smooth Policy [90.78795857181727]
我々は、国家に対して円滑に振る舞う円滑な政策を学ぶことを提案する。
textbfSmooth textbfRegularized textbfReinforcement textbfLearning(textbfSR2textbfL$)という新しいフレームワークを開発し、スムーズな正規化によってポリシーを訓練する。
このような正規化は、探索空間を効果的に制限し、学習ポリシーの滑らかさを強制する。
論文 参考訳(メタデータ) (2020-03-21T00:10:29Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。