論文の概要: Learning Safety Constraints from Demonstrations with Unknown Rewards
- arxiv url: http://arxiv.org/abs/2305.16147v1
- Date: Thu, 25 May 2023 15:18:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 14:32:30.279296
- Title: Learning Safety Constraints from Demonstrations with Unknown Rewards
- Title(参考訳): 未知のリワードによるデモからの安全制約の学習
- Authors: David Lindner, Xin Chen, Sebastian Tschiatschek, Katja Hofmann,
Andreas Krause
- Abstract要約: 制約付きマルコフ決定過程(CMDP)において共有制約を推論する新しい手法であるCoCoRL(Convex Constraint Learning for Reinforcement Learning)を提案する。
CoCoRLは安全な運転行動につながる制約を学び、異なるタスクや環境に転送できる。
対照的に、逆強化学習(IRL)に基づく代替手法は、性能が悪く、安全でないポリシーを学ぶことが多い。
- 参考スコア(独自算出の注目度): 94.61538204308418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Convex Constraint Learning for Reinforcement Learning (CoCoRL), a
novel approach for inferring shared constraints in a Constrained Markov
Decision Process (CMDP) from a set of safe demonstrations with possibly
different reward functions. While previous work is limited to demonstrations
with known rewards or fully known environment dynamics, CoCoRL can learn
constraints from demonstrations with different unknown rewards without
knowledge of the environment dynamics. CoCoRL constructs a convex safe set
based on demonstrations, which provably guarantees safety even for potentially
sub-optimal (but safe) demonstrations. For near-optimal demonstrations, CoCoRL
converges to the true safe set with no policy regret. We evaluate CoCoRL in
tabular environments and a continuous driving simulation with multiple
constraints. CoCoRL learns constraints that lead to safe driving behavior and
that can be transferred to different tasks and environments. In contrast,
alternative methods based on Inverse Reinforcement Learning (IRL) often exhibit
poor performance and learn unsafe policies.
- Abstract(参考訳): 本稿では,制約付きマルコフ決定プロセス(CMDP)における共有制約を,異なる報酬関数を持つ一連の安全なデモンストレーションから推定する新しい手法として,強化学習のための凸制約学習(CoCoRL)を提案する。
これまでの作業は、既知の報酬や完全に既知の環境ダイナミクスによるデモンストレーションに限定されているが、cocorlは、環境ダイナミクスを知らずに、未知の報酬を持つデモから制約を学ぶことができる。
cocorlはデモに基づいた凸セーフセットを構築しており、潜在的に最適でない(しかし安全な)デモであっても安全性を保証できる。
ほぼ最適のデモンストレーションでは、CoCoRLはポリシーを後悔せずに真の安全なセットに収束する。
表環境におけるCoCoRLの評価と,複数制約による連続運転シミュレーションを行った。
CoCoRLは安全な運転行動につながる制約を学び、異なるタスクや環境に転送できる。
対照的に、逆強化学習(irl)に基づく代替手法は、しばしば性能が悪く、安全でないポリシーを学ぶ。
関連論文リスト
- State-Wise Safe Reinforcement Learning With Pixel Observations [12.338614299403305]
本稿では,未知の危険領域に対する安全性の制約を効率的にエンコードする,新しい画素オブザービングセーフなRLアルゴリズムを提案する。
共同学習の枠組みとして,画素観測から導出した低次元潜在空間を用いた潜在力学モデルの構築から着目する。
次に、潜時力学の上に潜時バリアのような機能を構築・学習し、同時にポリシー最適化を行い、それによって安全性と総リターンの両方を改善します。
論文 参考訳(メタデータ) (2023-11-03T20:32:30Z) - Coherent Soft Imitation Learning [17.345411907902932]
模倣学習法は、政策の行動クローニング(BC)や報酬の逆強化学習(IRL)を通じて専門家から学ぶ。
この研究は、BCとIRLの両方の強度を捉える模倣法に由来する。
論文 参考訳(メタデータ) (2023-05-25T21:54:22Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Sim-to-Lab-to-Real: Safe Reinforcement Learning with Shielding and
Generalization Guarantees [7.6347172725540995]
安全は自律システムにとって重要な要素であり、学習ベースのポリシーを現実世界で活用する上で依然として課題である。
我々は,現実のギャップを,確率的に保証された安全対応政策分布で埋めるべく,Sim-to-Lab-to-Realを提案する。
論文 参考訳(メタデータ) (2022-01-20T18:41:01Z) - Learn Zero-Constraint-Violation Policy in Model-Free Constrained
Reinforcement Learning [7.138691584246846]
本稿では,安全指向エネルギー関数を用いてポリシー更新を限定するセーフセットアクタクリティカル(SSAC)アルゴリズムを提案する。
安全指数は、潜在的に危険な行動のために急速に増加するように設計されている。
我々は、値関数の学習と同様に、モデルのない方法でエネルギー関数を学習できると主張する。
論文 参考訳(メタデータ) (2021-11-25T07:24:30Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z) - Regularized Inverse Reinforcement Learning [49.78352058771138]
逆強化学習(IRL)は、学習者が専門家の行動を模倣する能力を促進することを目的としている。
正規化IRLは学習者のポリシーに強い凸正則化を施す。
正規化IRLのためのトラクタブルソリューションとそれを得るための実用的な方法を提案する。
論文 参考訳(メタデータ) (2020-10-07T23:38:47Z) - Constrained Markov Decision Processes via Backward Value Functions [43.649330976089004]
制約付きマルコフ決定プロセスとして,制約付き学習の問題をモデル化する。
我々のアプローチの重要な貢献は、累積的なコスト制約を状態ベースの制約に変換することである。
我々は、エージェントが訓練の過程で安全を確保しながら収束する理論的保証を提供する。
論文 参考訳(メタデータ) (2020-08-26T20:56:16Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。