論文の概要: Safety Filtering While Training: Improving the Performance and Sample Efficiency of Reinforcement Learning Agents
- arxiv url: http://arxiv.org/abs/2410.11671v1
- Date: Tue, 15 Oct 2024 15:01:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:00:19.453785
- Title: Safety Filtering While Training: Improving the Performance and Sample Efficiency of Reinforcement Learning Agents
- Title(参考訳): トレーニング中の安全フィルタリング:強化学習エージェントの性能とサンプル効率の改善
- Authors: Federico Pizarro Bejarano, Lukas Brunke, Angela P. Schoellig,
- Abstract要約: 強化学習(RL)コントローラは柔軟で性能が高いが、安全性を保証することは滅多にない。
安全フィルタは、柔軟性を維持しながら、RLコントローラにハードセーフの保証を与える。
評価中にのみ適用するのではなく、トレーニング用RLコントローラに安全フィルタを組み込むためのいくつかの修正を提案する。
- 参考スコア(独自算出の注目度): 7.55113002732746
- License:
- Abstract: Reinforcement learning (RL) controllers are flexible and performant but rarely guarantee safety. Safety filters impart hard safety guarantees to RL controllers while maintaining flexibility. However, safety filters can cause undesired behaviours due to the separation between the controller and the safety filter, often degrading performance and robustness. In this paper, we propose several modifications to incorporating the safety filter in training RL controllers rather than solely applying it during evaluation. The modifications allow the RL controller to learn to account for the safety filter, improving performance. Additionally, our modifications significantly improve sample efficiency and eliminate training-time constraint violations. We verified the proposed modifications in simulated and real experiments with a Crazyflie 2.0 drone. In experiments, we show that the proposed training approaches require significantly fewer environment interactions and improve performance by up to 20% compared to standard RL training.
- Abstract(参考訳): 強化学習(RL)コントローラは柔軟で性能が高いが、安全性を保証することは滅多にない。
安全フィルタは、柔軟性を維持しながら、RLコントローラにハードセーフの保証を与える。
しかし、安全フィルタは、コントローラと安全フィルタの分離による望ましくない動作を引き起こし、しばしば性能と堅牢性を低下させる。
本稿では、評価中にのみ適用するのではなく、トレーニング用RLコントローラに安全フィルタを組み込むためのいくつかの修正を提案する。
この変更により、RLコントローラは安全フィルタを考慮に入れ、性能を向上させることができる。
さらに, サンプル効率を大幅に改善し, トレーニング時の制約違反を排除した。
我々は、Crazyflie 2.0ドローンによるシミュレーションと実際の実験で提案された修正を検証した。
実験では,提案手法は環境相互作用を著しく少なくし,従来のRL訓練と比較して最大20%性能を向上させる必要があることを示した。
関連論文リスト
- Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である
安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:00:21Z) - Sampling-based Safe Reinforcement Learning for Nonlinear Dynamical
Systems [15.863561935347692]
非線形力学系の制御のための安全かつ収束性のある強化学習アルゴリズムを開発した。
制御とRLの交差点における最近の進歩は、ハードセーフティ制約を強制するための2段階の安全フィルタアプローチに従っている。
我々は,古典的な収束保証を享受するRLコントローラを学習する,一段階のサンプリングに基づくハード制約満足度へのアプローチを開発する。
論文 参考訳(メタデータ) (2024-03-06T19:39:20Z) - Modular Control Architecture for Safe Marine Navigation: Reinforcement Learning and Predictive Safety Filters [0.0]
強化学習は複雑なシナリオに適応するためにますます使われていますが、安全性と安定性を保証するための標準フレームワークは欠如しています。
予測安全フィルタ(PSF)は、明示的な制約処理を伴わずに、学習ベースの制御における制約満足度を確保する、有望なソリューションを提供する。
この手法を海洋航法に適用し,シミュレーションされたCybership IIモデル上でRLとPSFを組み合わせた。
その結果, PSF が安全維持に有効であることは, RL エージェントの学習速度と性能を損なうことなく示され, PSF を使用せずに標準 RL エージェントに対して評価された。
論文 参考訳(メタデータ) (2023-12-04T12:37:54Z) - Safe and Sample-efficient Reinforcement Learning for Clustered Dynamic
Environments [4.111899441919165]
本研究は,2つの課題に対処する安全かつサンプル効率の強化学習(RL)フレームワークを提案する。
我々は、セーフセットアルゴリズム(SSA)を用いて、名目制御の監視と修正を行い、クラスタリングされた動的環境におけるSSA+RLの評価を行う。
我々のフレームワークは、トレーニング中の他の安全なRL手法と比較して安全性が向上し、エピソードが大幅に少ないタスクを解決できる。
論文 参考訳(メタデータ) (2023-03-24T20:29:17Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Adaptive Aggregation for Safety-Critical Control [3.1692938090731584]
安全クリティカル制御のためのアダプティブアグリゲーションフレームワークを提案する。
我々のアルゴリズムは、いくつかのベースラインと比較してデータ効率が良く、安全性違反が少ない。
論文 参考訳(メタデータ) (2023-02-07T16:53:33Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Improving the Performance of Robust Control through Event-Triggered
Learning [74.57758188038375]
LQR問題における不確実性に直面していつ学習するかを決定するイベントトリガー学習アルゴリズムを提案する。
本研究では,ロバストな制御器ベースライン上での性能向上を数値例で示す。
論文 参考訳(メタデータ) (2022-07-28T17:36:37Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Remote Electrical Tilt Optimization via Safe Reinforcement Learning [1.2599533416395765]
リモート電気ティルト(RET)最適化は、ネットワークのキーパフォーマンス指標(KPI)を最適化するために、基地局(BS)アンテナの垂直傾き角を調整する効率的な方法である。
本研究では、傾き制御戦略の学習を目的とした安全強化学習(SRL)フレームワークにおけるRET最適化問題をモデル化する。
実験の結果,提案手法は安全で改良された傾き更新ポリシーを学習でき,信頼性が高く,現実のネットワーク展開の可能性も高いことがわかった。
論文 参考訳(メタデータ) (2020-10-12T16:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。