論文の概要: Confidence Aware Inverse Constrained Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2406.16782v1
- Date: Mon, 24 Jun 2024 16:44:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 13:55:51.404927
- Title: Confidence Aware Inverse Constrained Reinforcement Learning
- Title(参考訳): 逆制約強化学習に対する信頼感
- Authors: Sriram Ganapathi Subramanian, Guiliang Liu, Mohammed Elmahgiubi, Kasra Rezaee, Pascal Poupart,
- Abstract要約: Inverse Constraint Reinforcement Learning (ICRL)は、オフラインで収集された専門家によるデモンストレーションから制約を推定することを目的としている。
この研究は、専門家によるデモンストレーションのセットで信頼性レベルを取ることができる原則化されたICRL法を提供する。
所望の信頼レベルに対する真の基礎的制約と同じくらいの制約を出力します。
- 参考スコア(独自算出の注目度): 24.068565421326362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In coming up with solutions to real-world problems, humans implicitly adhere to constraints that are too numerous and complex to be specified completely. However, reinforcement learning (RL) agents need these constraints to learn the correct optimal policy in these settings. The field of Inverse Constraint Reinforcement Learning (ICRL) deals with this problem and provides algorithms that aim to estimate the constraints from expert demonstrations collected offline. Practitioners prefer to know a measure of confidence in the estimated constraints, before deciding to use these constraints, which allows them to only use the constraints that satisfy a desired level of confidence. However, prior works do not allow users to provide the desired level of confidence for the inferred constraints. This work provides a principled ICRL method that can take a confidence level with a set of expert demonstrations and outputs a constraint that is at least as constraining as the true underlying constraint with the desired level of confidence. Further, unlike previous methods, this method allows a user to know if the number of expert trajectories is insufficient to learn a constraint with a desired level of confidence, and therefore collect more expert trajectories as required to simultaneously learn constraints with the desired level of confidence and a policy that achieves the desired level of performance.
- Abstract(参考訳): 現実世界の問題に対する解決策を思いついたとき、人間は暗黙的に、あまりに数が多く複雑すぎて完全に特定できない制約に固執する。
しかしながら、強化学習(RL)エージェントは、これらの設定において正しい最適ポリシーを学ぶためにこれらの制約を必要とする。
Inverse Constraint Reinforcement Learning (ICRL)の分野は、この問題に対処し、オフラインで収集された専門家によるデモンストレーションから制約を推定するアルゴリズムを提供する。
実践者は、これらの制約を使用することを決定する前に、推定された制約に対する信頼の尺度を知っておくことを好む。
しかし、事前の作業では、ユーザは推論された制約に対して望ましいレベルの信頼を提供できない。
この研究は、専門家による一連のデモンストレーションで信頼レベルを取ることができる原則的ICRL法を提供し、少なくとも所望の信頼レベルに対する真の基礎的制約と同じくらいの制約を出力する。
さらに、従来の方法と異なり、専門家の軌道の数が不足しているかどうかをユーザが把握し、所望の信頼度で制約を同時に学習するために必要な専門家の軌道と、所望のパフォーマンスレベルを達成するポリシーを収集する。
関連論文リスト
- Probabilistic Satisfaction of Temporal Logic Constraints in Reinforcement Learning via Adaptive Policy-Switching [0.0]
Constrained Reinforcement Learning (CRL)は、従来の強化学習(RL)フレームワークに制約を導入する機械学習のサブセットである。
純粋学習(逆)と制約満足度を切り替えることに依存する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2024-10-10T15:19:45Z) - Do No Harm: A Counterfactual Approach to Safe Reinforcement Learning [5.862025534776996]
制御のための強化学習は、環境の不確実性や複雑な表現を考慮に入れた豊かなフィードバックポリシーを学ぶ能力によって、ますます人気が高まっている。
このような方法では、もしエージェントが入居しているか、あるいは訪れなければならない場合、制約違反が避けられない状態であるなら、どの程度罰せられるべきかは明らかでない。
我々は,この課題に対して,既定の安全政策と比較して,学習した政策の事実的害に対する制約を定式化することによって対処する。
哲学的な意味では、この定式化は学習者にそれが引き起こした制約違反を罰するだけであり、実際的な意味では最適な制御問題の実現可能性を維持する。
論文 参考訳(メタデータ) (2024-05-19T20:33:21Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Resilient Constrained Learning [94.27081585149836]
本稿では,学習課題を同時に解決しながら,要求に適応する制約付き学習手法を提案する。
我々はこの手法を、その操作を変更することで破壊に適応する生態システムを記述する用語に因んで、レジリエントな制約付き学習と呼ぶ。
論文 参考訳(メタデータ) (2023-06-04T18:14:18Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。
様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文 参考訳(メタデータ) (2020-10-22T12:39:11Z) - Constrained Markov Decision Processes via Backward Value Functions [43.649330976089004]
制約付きマルコフ決定プロセスとして,制約付き学習の問題をモデル化する。
我々のアプローチの重要な貢献は、累積的なコスト制約を状態ベースの制約に変換することである。
我々は、エージェントが訓練の過程で安全を確保しながら収束する理論的保証を提供する。
論文 参考訳(メタデータ) (2020-08-26T20:56:16Z) - Deep Constrained Q-learning [15.582910645906145]
多くの実世界の応用において、強化学習エージェントは特定の規則に従うか制約を満たすことなく、複数の目的を最適化する必要がある。
制約付きMDPの最適Q関数とそれに対応する安全ポリシーを学習するために,Q更新時の行動空間を直接制限する新しい非政治的強化学習フレームワークであるConstrained Q-learningを提案する。
論文 参考訳(メタデータ) (2020-03-20T17:26:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。