論文の概要: A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2303.04118v1
- Date: Tue, 7 Mar 2023 18:29:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 14:19:36.888491
- Title: A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning
- Title(参考訳): 安全かつ効率的な強化学習のための乗算値関数
- Authors: Nick B\"uhrer, Zhejun Zhang, Alexander Liniger, Fisher Yu, Luc Van
Gool
- Abstract要約: 本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
- 参考スコア(独自算出の注目度): 131.96501469927733
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: An emerging field of sequential decision problems is safe Reinforcement
Learning (RL), where the objective is to maximize the reward while obeying
safety constraints. Being able to handle constraints is essential for deploying
RL agents in real-world environments, where constraint violations can harm the
agent and the environment. To this end, we propose a safe model-free RL
algorithm with a novel multiplicative value function consisting of a safety
critic and a reward critic. The safety critic predicts the probability of
constraint violation and discounts the reward critic that only estimates
constraint-free returns. By splitting responsibilities, we facilitate the
learning task leading to increased sample efficiency. We integrate our approach
into two popular RL algorithms, Proximal Policy Optimization and Soft
Actor-Critic, and evaluate our method in four safety-focused environments,
including classical RL benchmarks augmented with safety constraints and robot
navigation tasks with images and raw Lidar scans as observations. Finally, we
make the zero-shot sim-to-real transfer where a differential drive robot has to
navigate through a cluttered room. Our code can be found at
https://github.com/nikeke19/Safe-Mult-RL.
- Abstract(参考訳): シーケンシャルな意思決定問題の新興分野は安全強化学習(RL)であり、安全制約に従って報酬を最大化することを目的としている。
制約に対処できることは、制約違反がエージェントと環境を傷つける可能性がある実環境において、RLエージェントをデプロイするために不可欠である。
そこで本研究では,安全評論家と報酬批判者からなる新しい乗法価値関数を持つモデルフリーなrlアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制約のないリターンのみを見積もる報酬批評家をディスカウントする。
責任を分割することで,学習作業が促進され,サンプル効率が向上する。
提案手法を2つの一般的なRLアルゴリズム, Proximal Policy Optimization と Soft Actor-Critic に統合し,安全制約を付加した古典的RLベンチマーク,画像を用いたロボットナビゲーションタスク,生のLidarスキャンを観察対象とする4つの安全性重視環境で評価する。
最後に、ディファレンシャルドライブロボットが散らかった部屋をナビゲートしなければならないゼロショットのsim-to-real転送を行う。
私たちのコードはhttps://github.com/nikeke19/Safe-Mult-RLで参照できます。
関連論文リスト
- REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - TRC: Trust Region Conditional Value at Risk for Safe Reinforcement
Learning [16.176812250762666]
TRCと呼ばれるCVaR制約を持つ信頼領域ベースの安全なRL法を提案する。
まずCVaR上の上界を導出し、その後、信頼領域における微分可能な形で上界を近似する。
他の安全なRL法と比較して、全ての実験で制約を満たす一方、性能は1.93倍向上する。
論文 参考訳(メタデータ) (2023-12-01T04:40:47Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Safe Reinforcement Learning using Data-Driven Predictive Control [0.5459797813771499]
安全でない動作のフィルタとして機能するデータ駆動型安全層を提案する。
安全層は、提案されたアクションが安全でない場合にRLエージェントをペナルティ化し、最も安全なものに置き換える。
本手法は,ロボットナビゲーション問題において,最先端の安全RL法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-20T17:10:40Z) - Learn Zero-Constraint-Violation Policy in Model-Free Constrained
Reinforcement Learning [7.138691584246846]
本稿では,安全指向エネルギー関数を用いてポリシー更新を限定するセーフセットアクタクリティカル(SSAC)アルゴリズムを提案する。
安全指数は、潜在的に危険な行動のために急速に増加するように設計されている。
我々は、値関数の学習と同様に、モデルのない方法でエネルギー関数を学習できると主張する。
論文 参考訳(メタデータ) (2021-11-25T07:24:30Z) - Constraint-Guided Reinforcement Learning: Augmenting the
Agent-Environment-Interaction [10.203602318836445]
強化学習(RL)エージェントは、限られたフィードバックから大きな観察とアクションスペースでタスクを解決することに成功しています。
本稿では,制約に基づく拡張モデルと深部RLの統合による信頼性エージェントのエンジニアリングについて論じる。
その結果、制約ガイダンスは信頼性の向上と安全な行動を提供するだけでなく、トレーニングを加速する。
論文 参考訳(メタデータ) (2021-04-24T10:04:14Z) - Recovery RL: Safe Reinforcement Learning with Learned Recovery Zones [81.49106778460238]
リカバリRLは、オフラインデータを使用して、ポリシー学習の前に制約違反ゾーンについて学習する。
2つのコンタクトリッチな操作タスクと画像に基づくナビゲーションタスクを含む6つのシミュレーション領域におけるリカバリRLの評価を行った。
その結果,リカバリRLは制約違反やタスク成功を2~20倍,物理実験では3倍の効率で処理できることが示唆された。
論文 参考訳(メタデータ) (2020-10-29T20:10:02Z) - Cautious Adaptation For Reinforcement Learning in Safety-Critical
Settings [129.80279257258098]
都市運転のような現実の安全クリティカルな目標設定における強化学習(RL)は危険である。
非安全クリティカルな「ソース」環境でエージェントが最初に訓練する「安全クリティカル適応」タスクセットを提案する。
多様な環境における事前経験がリスクを見積もるためにエージェントに装備するという直感に基づくソリューションアプローチであるCARLを提案する。
論文 参考訳(メタデータ) (2020-08-15T01:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。