論文の概要: Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2212.06998v1
- Date: Wed, 14 Dec 2022 03:11:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 17:56:09.303357
- Title: Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning
- Title(参考訳): ベースラインからの安全補正:デュアルエージェント強化学習によるロボットのリスク意識政策に向けて
- Authors: Linrui Zhang and Zichen Yan and Li Shen and Shoujie Li and Xueqian
Wang and Dacheng Tao
- Abstract要約: 本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
- 参考スコア(独自算出の注目度): 64.11013095004786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning a risk-aware policy is essential but rather challenging in
unstructured robotic tasks. Safe reinforcement learning methods open up new
possibilities to tackle this problem. However, the conservative policy updates
make it intractable to achieve sufficient exploration and desirable performance
in complex, sample-expensive environments. In this paper, we propose a
dual-agent safe reinforcement learning strategy consisting of a baseline and a
safe agent. Such a decoupled framework enables high flexibility, data
efficiency and risk-awareness for RL-based control. Concretely, the baseline
agent is responsible for maximizing rewards under standard RL settings. Thus,
it is compatible with off-the-shelf training techniques of unconstrained
optimization, exploration and exploitation. On the other hand, the safe agent
mimics the baseline agent for policy improvement and learns to fulfill safety
constraints via off-policy RL tuning. In contrast to training from scratch,
safe policy correction requires significantly fewer interactions to obtain a
near-optimal policy. The dual policies can be optimized synchronously via a
shared replay buffer, or leveraging the pre-trained model or the
non-learning-based controller as a fixed baseline agent. Experimental results
show that our approach can learn feasible skills without prior knowledge as
well as deriving risk-averse counterparts from pre-trained unsafe policies. The
proposed method outperforms the state-of-the-art safe RL algorithms on
difficult robot locomotion and manipulation tasks with respect to both safety
constraint satisfaction and sample efficiency.
- Abstract(参考訳): リスク対応政策の学習は不可欠だが、非構造的なロボットタスクでは難しい。
安全な強化学習手法は、この問題に取り組む新しい可能性を開く。
しかし、保守的な政策更新により、複雑なサンプル探査環境で十分な探索と望ましい性能を達成することができなくなる。
本稿では,ベースラインとセーフエージェントからなる二重エージェントによる安全強化学習戦略を提案する。
このような分離フレームワークは、rlベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
具体的には、ベースラインエージェントが標準rl設定で報酬を最大化する責任を負う。
したがって、制約のない最適化、探索、搾取の既成の訓練技術と互換性がある。
一方、安全エージェントは、政策改善のための基準エージェントを模倣し、外部RLチューニングを通じて安全制約を満たすことを学習する。
スクラッチからのトレーニングとは対照的に、安全なポリシー修正は、ほぼ最適ポリシーを得るために、はるかに少ない相互作用を必要とする。
デュアルポリシーは、共有リプレイバッファを介して同期的に最適化したり、トレーニング済みモデルや非学習ベースのコントローラを固定ベースラインエージェントとして利用することができる。
実験結果から,本手法は事前知識を必要とせず,かつ,事前訓練した安全でない政策からリスク回避策を導き出すことが可能であることが示唆された。
提案手法は, 安全制約満足度とサンプル効率の両面において, ロボットの移動・操作作業において, 最先端の安全RLアルゴリズムより優れる。
関連論文リスト
- Safe Reinforcement Learning in a Simulated Robotic Arm [0.0]
強化学習(RL)エージェントは、最適なポリシーを学ぶために環境を探索する必要がある。
本稿では,Pandaロボットアームを用いたカスタマイズ環境を構築することにより,安全なRLアルゴリズムの適用性を向上させる。
論文 参考訳(メタデータ) (2023-11-28T19:22:16Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Safe Model-Based Reinforcement Learning with an Uncertainty-Aware
Reachability Certificate [6.581362609037603]
我々は、DRCとそれに対応するシールドポリシーの制約を解決するために、安全な強化学習フレームワークを構築します。
また,シールドポリシを活用しつつ,安全性と高いリターンを同時に達成するためのラインサーチ手法も考案した。
論文 参考訳(メタデータ) (2022-10-14T06:16:53Z) - SAFER: Data-Efficient and Safe Reinforcement Learning via Skill
Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。
オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。
推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文 参考訳(メタデータ) (2022-02-10T05:43:41Z) - Minimizing Safety Interference for Safe and Comfortable Automated
Driving with Distributional Reinforcement Learning [3.923354711049903]
そこで本稿では,望ましい快適さと実用性に基づいて,実行時の保守性レベルを調整可能な適応ポリシーを学習するための分散強化学習フレームワークを提案する。
提案アルゴリズムは,認識ノイズが2倍高い場合にも信頼性を向上できるポリシを学習し,非閉塞交差点における自動マージと踏切の訓練構成を示す。
論文 参考訳(メタデータ) (2021-07-15T13:36:55Z) - Safe Reinforcement Learning Using Advantage-Based Intervention [45.79740561754542]
多くのシーケンシャルな決定問題は、安全性の制約に従いながら全報酬を最大化するポリシーを見つけることである。
本稿では,エージェントの安全性を確保するために,アドバンテージ関数に基づく介入機構を用いた新しいアルゴリズムであるSAILRを提案する。
私たちの方法には、トレーニングとデプロイメントの両方において、安全性が強く保証されています。
論文 参考訳(メタデータ) (2021-06-16T20:28:56Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z) - Runtime-Safety-Guided Policy Repair [13.038017178545728]
安全クリティカルな環境下での学習型制御政策におけるポリシー修復の問題点について検討する。
本稿では,安全コントローラが作成したランタイムデータに基づいて,トレーニング済みポリシーを修復することで,制御スイッチングを低減あるいは排除することを提案する。
論文 参考訳(メタデータ) (2020-08-17T23:31:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。