論文の概要: Safe Reinforcement Learning in a Simulated Robotic Arm
- arxiv url: http://arxiv.org/abs/2312.09468v2
- Date: Wed, 28 Feb 2024 21:04:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 18:01:31.978686
- Title: Safe Reinforcement Learning in a Simulated Robotic Arm
- Title(参考訳): 模擬ロボットアームにおける安全強化学習
- Authors: Luka Kova\v{c} and Igor Farka\v{s}
- Abstract要約: 強化学習(RL)エージェントは、最適なポリシーを学ぶために環境を探索する必要がある。
本稿では,Pandaロボットアームを用いたカスタマイズ環境を構築することにより,安全なRLアルゴリズムの適用性を向上させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) agents need to explore their environments in
order to learn optimal policies. In many environments and tasks, safety is of
critical importance. The widespread use of simulators offers a number of
advantages, including safe exploration which will be inevitable in cases when
RL systems need to be trained directly in the physical environment (e.g. in
human-robot interaction). The popular Safety Gym library offers three mobile
agent types that can learn goal-directed tasks while considering various safety
constraints. In this paper, we extend the applicability of safe RL algorithms
by creating a customized environment with Panda robotic arm where Safety Gym
algorithms can be tested. We performed pilot experiments with the popular PPO
algorithm comparing the baseline with the constrained version and show that the
constrained version is able to learn the equally good policy while better
complying with safety constraints and taking longer training time as expected.
- Abstract(参考訳): 強化学習(RL)エージェントは最適な政策を学ぶために環境を探索する必要がある。
多くの環境やタスクにおいて、安全は重要である。
シミュレータの普及は、RLシステムが物理的環境(例えば人間とロボットの相互作用)で直接訓練される必要がある場合に必然的に回避されるような安全な探索など、多くの利点を提供している。
人気のある安全ジムライブラリーは、さまざまな安全制約を考慮しながら目標指向のタスクを学習できる3つのモバイルエージェントタイプを提供している。
本稿では,安全ジムアルゴリズムをテスト可能なパンダロボットアームを用いたカスタマイズ環境の構築により,安全rlアルゴリズムの適用性を拡張する。
ppoアルゴリズムのベースラインと制約付きバージョンを比較してパイロット実験を行い,制約付きバージョンでは,安全上の制約を満たし,期待どおりのトレーニング時間を短縮しながら,等しく優れたポリシーを学習できることを示した。
関連論文リスト
- Safety-Gymnasium: A Unified Safe Reinforcement Learning Benchmark [12.660770759420286]
本稿では,単一エージェントとマルチエージェントの両方のシナリオにおいて,安全クリティカルなタスクを含む環境スイートであるSafety-Gymnasiumを提案する。
Safe Policy Optimization (SafePO) という,最先端のSafeRLアルゴリズム16種からなるアルゴリズムのライブラリを提供する。
論文 参考訳(メタデータ) (2023-10-19T08:19:28Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Provable Safe Reinforcement Learning with Binary Feedback [62.257383728544006]
状態, アクションペアの安全性に対するバイナリフィードバックを提供するオフラインオラクルへのアクセスを与えられた場合, 証明可能な安全なRLの問題を考える。
我々は,その設定に対してブラックボックスPAC RLアルゴリズムに与えられた任意のMDP設定に適用可能な,新しいメタアルゴリズムSABREを提案する。
論文 参考訳(メタデータ) (2022-10-26T05:37:51Z) - Safe Reinforcement Learning Using Black-Box Reachability Analysis [20.875010584486812]
強化学習(Reinforcement Learning, RL)は、不確実な環境下でのロボットの動き計画と制御を高度に行うことができる。
広範な展開を正当化するためには、ロボットは性能を犠牲にすることなく安全上の制約を尊重しなければならない。
我々は3つの主要コンポーネントを持つブラックボックス到達可能性に基づく安全層(BRSL)を提案する。
論文 参考訳(メタデータ) (2022-04-15T10:51:09Z) - Sim-to-Lab-to-Real: Safe Reinforcement Learning with Shielding and
Generalization Guarantees [7.6347172725540995]
安全は自律システムにとって重要な要素であり、学習ベースのポリシーを現実世界で活用する上で依然として課題である。
我々は,現実のギャップを,確率的に保証された安全対応政策分布で埋めるべく,Sim-to-Lab-to-Realを提案する。
論文 参考訳(メタデータ) (2022-01-20T18:41:01Z) - Learning Barrier Certificates: Towards Safe Reinforcement Learning with
Zero Training-time Violations [64.39401322671803]
本稿では、トレーニング時安全違反をゼロとした安全RLアルゴリズムの可能性について検討する。
本稿では、バリア証明書、動的モデル、ポリシーを反復的に学習する、CRABS(Co-trained Barrier Certificate for Safe RL)を提案する。
論文 参考訳(メタデータ) (2021-08-04T04:59:05Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。