論文の概要: Handling Long-Term Safety and Uncertainty in Safe Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2409.12045v2
- Date: Mon, 23 Sep 2024 12:42:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-24 13:39:07.588702
- Title: Handling Long-Term Safety and Uncertainty in Safe Reinforcement Learning
- Title(参考訳): 安全強化学習における長期安全と不確かさの扱い
- Authors: Jonas Günster, Puze Liu, Jan Peters, Davide Tateo,
- Abstract要約: 安全性は、現実世界のロボットに強化学習技術が配備されるのを防ぐ重要な問題の1つだ。
本稿では,安全な探索手法であるATACOMを学習可能な制約で拡張することにより,そのギャップを埋める。
- 参考スコア(独自算出の注目度): 17.856459823003277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety is one of the key issues preventing the deployment of reinforcement learning techniques in real-world robots. While most approaches in the Safe Reinforcement Learning area do not require prior knowledge of constraints and robot kinematics and rely solely on data, it is often difficult to deploy them in complex real-world settings. Instead, model-based approaches that incorporate prior knowledge of the constraints and dynamics into the learning framework have proven capable of deploying the learning algorithm directly on the real robot. Unfortunately, while an approximated model of the robot dynamics is often available, the safety constraints are task-specific and hard to obtain: they may be too complicated to encode analytically, too expensive to compute, or it may be difficult to envision a priori the long-term safety requirements. In this paper, we bridge this gap by extending the safe exploration method, ATACOM, with learnable constraints, with a particular focus on ensuring long-term safety and handling of uncertainty. Our approach is competitive or superior to state-of-the-art methods in final performance while maintaining safer behavior during training.
- Abstract(参考訳): 安全性は、現実世界のロボットに強化学習技術が配備されるのを防ぐ重要な問題の1つだ。
Safe Reinforcement Learning領域のほとんどのアプローチは、制約やロボットキネマティクスに関する事前の知識を必要とせず、データのみに依存している。
代わりに、制約やダイナミクスの事前知識を学習フレームワークに組み込んだモデルベースのアプローチは、学習アルゴリズムを実際のロボットに直接デプロイできることを証明している。
残念ながら、ロボット力学の近似モデルがしばしば利用可能であるが、安全性の制約はタスク固有のものであり入手が困難である。
本稿では,安全探査手法であるATACOMを学習可能な制約で拡張することにより,このギャップを埋める。
我々のアプローチは、トレーニング中により安全な動作を維持しながら、最終性能において最先端の手法よりも優れているか、あるいは優れている。
関連論文リスト
- RACER: Epistemic Risk-Sensitive RL Enables Fast Driving with Fewer Crashes [57.319845580050924]
本稿では,リスク感応制御と適応行動空間のカリキュラムを組み合わせた強化学習フレームワークを提案する。
提案アルゴリズムは,現実世界のオフロード運転タスクに対して,高速なポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2024-05-07T23:32:36Z) - Learning Control Barrier Functions and their application in Reinforcement Learning: A Survey [11.180978323594822]
強化学習は、新しいロボット行動を開発するための強力な技術である。
安全性の考慮事項を取り入れ、実際のロボットへの迅速な移動を可能にし、生涯の学習を容易にすることを目的としている。
安全な強化学習における有望なアプローチの1つは、制御障壁関数の使用である。
論文 参考訳(メタデータ) (2024-04-22T22:52:14Z) - Safe Reinforcement Learning on the Constraint Manifold: Theory and Applications [21.98309272057848]
本稿では,学習に基づくロボットシステムに対して,複雑な安全制約を原則的に課す方法について述べる。
我々のアプローチは、安全ロボット構成の集合を表すConstraint Manifoldの概念に基づいている。
実世界のロボットエアホッケータスクにおいて,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-04-13T20:55:15Z) - Evaluation of Safety Constraints in Autonomous Navigation with Deep
Reinforcement Learning [62.997667081978825]
学習可能なナビゲーションポリシとして,セーフとアンセーフの2つを比較します。
安全なポリシは、制約をアカウントに含めますが、もう一方はそうではありません。
安全政策は、よりクリアランスの高い軌道を生成することができ(障害物によらず)、全体的な性能を犠牲にすることなく、トレーニング中に衝突を減らすことができることを示す。
論文 参考訳(メタデータ) (2023-07-27T01:04:57Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - An Empirical Analysis of the Use of Real-Time Reachability for the
Safety Assurance of Autonomous Vehicles [7.1169864450668845]
本稿では,1/10スケールのオープンソース自動運転車プラットフォームの安全性を確保するために,シンプルなアーキテクチャの実装にリアルタイムリーチビリティアルゴリズムを提案する。
提案手法では,システムの将来状態に対するコントローラの判断の影響に着目して,基盤となるコントローラを解析する必要性を抽象化する。
論文 参考訳(メタデータ) (2022-05-03T11:12:29Z) - Safe Learning in Robotics: From Learning-Based Control to Safe
Reinforcement Learning [3.9258421820410225]
我々は、機械学習を用いて、不確実性の下で安全な意思決定を実現するための最近の進歩についてレビューする。
不安定なダイナミクスを学習することで、パフォーマンスを安全に向上する学習ベースの制御アプローチ。
今後数年間、ロボット学習の分野を牽引するオープンな課題をいくつか取り上げる。
論文 参考訳(メタデータ) (2021-08-13T14:22:02Z) - Learning Barrier Certificates: Towards Safe Reinforcement Learning with
Zero Training-time Violations [64.39401322671803]
本稿では、トレーニング時安全違反をゼロとした安全RLアルゴリズムの可能性について検討する。
本稿では、バリア証明書、動的モデル、ポリシーを反復的に学習する、CRABS(Co-trained Barrier Certificate for Safe RL)を提案する。
論文 参考訳(メタデータ) (2021-08-04T04:59:05Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z) - Safe reinforcement learning for probabilistic reachability and safety
specifications: A Lyapunov-based approach [2.741266294612776]
安全運転の最大確率を学習するモデルフリー安全仕様法を提案する。
提案手法は, 各政策改善段階を抑制するための安全な政策に関して, リャプノフ関数を構築する。
安全集合と呼ばれる安全な操作範囲を決定する一連の安全なポリシーを導出する。
論文 参考訳(メタデータ) (2020-02-24T09:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。