論文の概要: Safe and Sample-efficient Reinforcement Learning for Clustered Dynamic
Environments
- arxiv url: http://arxiv.org/abs/2303.14265v1
- Date: Fri, 24 Mar 2023 20:29:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 20:55:33.887778
- Title: Safe and Sample-efficient Reinforcement Learning for Clustered Dynamic
Environments
- Title(参考訳): クラスター型動的環境のための安全・サンプル効率強化学習
- Authors: Hongyi Chen and Changliu Liu
- Abstract要約: 本研究は,2つの課題に対処する安全かつサンプル効率の強化学習(RL)フレームワークを提案する。
我々は、セーフセットアルゴリズム(SSA)を用いて、名目制御の監視と修正を行い、クラスタリングされた動的環境におけるSSA+RLの評価を行う。
我々のフレームワークは、トレーニング中の他の安全なRL手法と比較して安全性が向上し、エピソードが大幅に少ないタスクを解決できる。
- 参考スコア(独自算出の注目度): 4.111899441919165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study proposes a safe and sample-efficient reinforcement learning (RL)
framework to address two major challenges in developing applicable RL
algorithms: satisfying safety constraints and efficiently learning with limited
samples. To guarantee safety in real-world complex environments, we use the
safe set algorithm (SSA) to monitor and modify the nominal controls, and
evaluate SSA+RL in a clustered dynamic environment which is challenging to be
solved by existing RL algorithms. However, the SSA+RL framework is usually not
sample-efficient especially in reward-sparse environments, which has not been
addressed in previous safe RL works. To improve the learning efficiency, we
propose three techniques: (1) avoiding behaving overly conservative by adapting
the SSA; (2) encouraging safe exploration using random network distillation
with safety constraints; (3) improving policy convergence by treating SSA as
expert demonstrations and directly learn from that. The experimental results
show that our framework can achieve better safety performance compare to other
safe RL methods during training and solve the task with substantially fewer
episodes. Project website: https://hychen-naza.github.io/projects/Safe_RL/.
- Abstract(参考訳): 本研究では,RLアルゴリズムの開発において,安全性の制約を満たすこと,限られたサンプルで効率的に学習することの2つの大きな課題に対処する,安全かつサンプル効率のよい強化学習(RL)フレームワークを提案する。
実世界の複雑な環境での安全性を確保するため,安全設定アルゴリズム(SSA)を用いて名目制御の監視と修正を行い,既存のRLアルゴリズムでは解決が難しいクラスタリングされた動的環境におけるSSA+RLの評価を行う。
しかしながら、SSA+RLフレームワークは通常、特に報酬分散環境ではサンプリング効率が良くない。
学習効率を向上させるために,(1)SSAを適応させることで過度に保守的な行動を避けること,(2)安全制約付きランダムネットワーク蒸留による安全な探索を促進すること,(3)SSAを専門家による実証として扱うことで政策収束を改善し,そこから直接学習すること,の3つの手法を提案する。
実験の結果,我々のフレームワークは,トレーニング中の他の安全なrl手法と比較し,より少ないエピソードで課題を解決できることがわかった。
プロジェクトwebサイト: https://hychen-naza.github.io/projects/safe_rl/
関連論文リスト
- Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である
安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:00:21Z) - Sampling-based Safe Reinforcement Learning for Nonlinear Dynamical
Systems [15.863561935347692]
非線形力学系の制御のための安全かつ収束性のある強化学習アルゴリズムを開発した。
制御とRLの交差点における最近の進歩は、ハードセーフティ制約を強制するための2段階の安全フィルタアプローチに従っている。
我々は,古典的な収束保証を享受するRLコントローラを学習する,一段階のサンプリングに基づくハード制約満足度へのアプローチを開発する。
論文 参考訳(メタデータ) (2024-03-06T19:39:20Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Adaptive Aggregation for Safety-Critical Control [3.1692938090731584]
安全クリティカル制御のためのアダプティブアグリゲーションフレームワークを提案する。
我々のアルゴリズムは、いくつかのベースラインと比較してデータ効率が良く、安全性違反が少ない。
論文 参考訳(メタデータ) (2023-02-07T16:53:33Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Provably Safe Reinforcement Learning: Conceptual Analysis, Survey, and
Benchmarking [12.719948223824483]
強化学習(RL)アルゴリズムは、多くの現実世界のタスクにおいて、その潜在能力を解き放つために不可欠である。
しかしながら、バニラRLと最も安全なRLアプローチは安全性を保証するものではない。
本稿では,既存の安全なRL手法の分類を導入し,連続的および離散的な動作空間の概念的基礎を提示し,既存の手法を実証的にベンチマークする。
本稿では、安全仕様、RLアルゴリズム、アクション空間の種類に応じて、確実に安全なRLアプローチを選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2022-05-13T16:34:36Z) - Safe Policy Optimization with Local Generalized Linear Function
Approximations [17.84511819022308]
既存の安全探査法は、規則性の前提で安全を保証した。
本研究では,センサによって得られる局所的特徴と環境報酬・安全との関係を学習しながら,エージェントのポリシーを最適化する新しいアルゴリズムであるSPO-LFを提案する。
提案アルゴリズムは,1) サンプルの複雑さと計算コストの点で効率が良く,2) 理論的保証のある従来の安全RL法よりも大規模な問題に適用可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T00:47:50Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。