論文の概要: Probabilistic Satisfaction of Temporal Logic Constraints in Reinforcement Learning via Adaptive Policy-Switching
- arxiv url: http://arxiv.org/abs/2410.08022v2
- Date: Wed, 27 Nov 2024 22:08:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:15:23.800108
- Title: Probabilistic Satisfaction of Temporal Logic Constraints in Reinforcement Learning via Adaptive Policy-Switching
- Title(参考訳): 適応的政策スイッチングによる強化学習における時間論理制約の確率的満足度
- Authors: Xiaoshan Lin, Sadık Bera Yüksel, Yasin Yazıcıoğlu, Derya Aksaray,
- Abstract要約: Constrained Reinforcement Learning (CRL)は、従来の強化学習(RL)フレームワークに制約を導入する機械学習のサブセットである。
純粋学習(逆)と制約満足度を切り替えることに依存する新しい枠組みを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Constrained Reinforcement Learning (CRL) is a subset of machine learning that introduces constraints into the traditional reinforcement learning (RL) framework. Unlike conventional RL which aims solely to maximize cumulative rewards, CRL incorporates additional constraints that represent specific mission requirements or limitations that the agent must comply with during the learning process. In this paper, we address a type of CRL problem where an agent aims to learn the optimal policy to maximize reward while ensuring a desired level of temporal logic constraint satisfaction throughout the learning process. We propose a novel framework that relies on switching between pure learning (reward maximization) and constraint satisfaction. This framework estimates the probability of constraint satisfaction based on earlier trials and properly adjusts the probability of switching between learning and constraint satisfaction policies. We theoretically validate the correctness of the proposed algorithm and demonstrate its performance through comprehensive simulations.
- Abstract(参考訳): Constrained Reinforcement Learning (CRL)は、従来の強化学習(RL)フレームワークに制約を導入する機械学習のサブセットである。
累積報酬を最大化することを目的とした従来のRLとは異なり、CRLは学習プロセス中にエージェントが従わなければならない特定のミッション要件や制限を表す追加の制約を取り入れている。
本稿では,学習過程を通じて,時間的論理的制約の満足度を確保しつつ,報酬を最大化するために最適なポリシーを学習することを目的としたCRL問題に対処する。
純粋学習(逆最大化)と制約満足度(制約満足度)の切り替えに依存する新しい枠組みを提案する。
本枠組みは、事前の試行に基づいて制約満足度確率を推定し、学習と制約満足度ポリシーの切り替え確率を適切に調整する。
提案アルゴリズムの正しさを理論的に検証し,その性能を総合シミュレーションにより実証する。
関連論文リスト
- Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - Constrained Reinforcement Learning Under Model Mismatch [18.05296241839688]
制約強化学習(RL)に関する既存の研究は、訓練環境における優れた政策を得ることができる。
しかし、実際の環境にデプロイすると、トレーニングと実際の環境の間にモデルミスマッチがあるため、トレーニング中に当初満足していた制約に容易に違反する可能性がある。
我々は,大規模かつ連続的な状態空間に適用可能な最初のアルゴリズムであるロバスト制約付きポリシー最適化(RCPO)アルゴリズムを開発し,トレーニング中の各イテレーションにおいて最悪の報酬改善と制約違反を理論的に保証する。
論文 参考訳(メタデータ) (2024-05-02T14:31:52Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Quantile Constrained Reinforcement Learning: A Reinforcement Learning
Framework Constraining Outage Probability [16.861004263551447]
制約付き強化学習(RL)は,与えられた制約を満たすことなく,期待される累積回帰を最大化する最適政策を求めることを目的とする。
本稿では,累積和の分布の量子化を制約するフレームワークであるQuantile Constrained RL(QCRL)を提案する。
論文 参考訳(メタデータ) (2022-11-28T03:46:56Z) - Reinforcement Learning with Stepwise Fairness Constraints [50.538878453547966]
本稿では,段階的公正性制約を伴う強化学習について紹介する。
我々は、ポリシーの最適性と公正性違反に関して、強力な理論的保証を持つ学習アルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-11-08T04:06:23Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Constrained Model-Free Reinforcement Learning for Process Optimization [0.0]
強化学習(Reinforcement Learning, RL)は、非線形最適制御問題を扱うための制御手法である。
展示された約束にもかかわらず、RLは産業的な実践への顕著な翻訳をまだ見ていない。
確率の高い共同確率制約の満足度を保証できる「オークル」支援型制約付きQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-16T13:16:22Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。