論文の概要: Ablation Study of How Run Time Assurance Impacts the Training and
Performance of Reinforcement Learning Agents
- arxiv url: http://arxiv.org/abs/2207.04117v1
- Date: Fri, 8 Jul 2022 20:15:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-14 06:35:50.077181
- Title: Ablation Study of How Run Time Assurance Impacts the Training and
Performance of Reinforcement Learning Agents
- Title(参考訳): ランタイム保証が強化学習エージェントの訓練と性能に与える影響に関するアブレーション研究
- Authors: Nathaniel Hamilton, Kyle Dunlap, Taylor T Johnson, Kerianne L Hobbs
- Abstract要約: 本研究では,評価ベストプラクティスを用いたアブレーション研究を行い,実行時間保証(RTA)が効果的な学習に与える影響について検討する。
私たちの結論は、安全な強化学習の最も有望な方向性に光を当てました。
- 参考スコア(独自算出の注目度): 5.801944210870593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) has become an increasingly important research
area as the success of machine learning algorithms and methods grows. To combat
the safety concerns surrounding the freedom given to RL agents while training,
there has been an increase in work concerning Safe Reinforcement Learning
(SRL). However, these new and safe methods have been held to less scrutiny than
their unsafe counterparts. For instance, comparisons among safe methods often
lack fair evaluation across similar initial condition bounds and hyperparameter
settings, use poor evaluation metrics, and cherry-pick the best training runs
rather than averaging over multiple random seeds. In this work, we conduct an
ablation study using evaluation best practices to investigate the impact of run
time assurance (RTA), which monitors the system state and intervenes to assure
safety, on effective learning. By studying multiple RTA approaches in both
on-policy and off-policy RL algorithms, we seek to understand which RTA methods
are most effective, whether the agents become dependent on the RTA, and the
importance of reward shaping versus safe exploration in RL agent training. Our
conclusions shed light on the most promising directions of SRL, and our
evaluation methodology lays the groundwork for creating better comparisons in
future SRL work.
- Abstract(参考訳): 強化学習(rl)は、機械学習アルゴリズムや手法の成功とともに、ますます重要な研究分野になりつつある。
訓練中にRLエージェントに与えられる自由に関する安全上の懸念に対処するため、安全強化学習(SRL)に関する作業が増加している。
しかし、これらの新しい安全で安全な手法は、安全でない方法よりもより精査されていない。
例えば、安全なメソッドの比較では、同じ初期条件境界とハイパーパラメータ設定に対して公正な評価を欠くことが多く、評価指標が貧弱で、チェリーピックは複数のランダムなシードを平均化するよりも、最高のトレーニング実行に適しています。
本研究では,評価ベストプラクティスを用いて,システム状態を監視し,安全性を確保するために介入する実行時保証(RTA)が効果的な学習に与える影響を調査する。
複数のRTA手法をオン・ポリティクスとオフ・ポリティクスのRLアルゴリズムの両方で研究することにより、RTA法がどの方法が最も効果的か、エージェントがRTAに依存するかどうか、RLエージェントトレーニングにおける報酬形成と安全な探索の重要性について理解することを模索する。
我々の結論は、SRLの最も有望な方向性に光を当て、我々の評価手法は将来のSRLにおけるより良い比較を作成するための基礎となる。
関連論文リスト
- Safe Reinforcement Learning in Black-Box Environments via Adaptive Shielding [5.5929450570003185]
未知のブラックボックス環境におけるRLエージェントのトレーニングは、ドメイン/タスクに関する事前の知識が利用できない場合にさらに安全性の高いリスクをもたらす。
本稿では、トレーニング中の状態-動作ペアの安全性と安全性を区別する新しいポストシールド技術であるADVICE(Adaptive Shielding with a Contrastive Autoencoder)を紹介する。
論文 参考訳(メタデータ) (2024-05-28T13:47:21Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Self-Improving Safety Performance of Reinforcement Learning Based
Driving with Black-Box Verification Algorithms [0.0]
本稿では,強化学習(RL)に基づく自律運転(AD)エージェントの安全性向上を目的とした,自己改善型人工知能システムを提案する。
提案手法は,RLベースの適応クルーズ制御(ACC)アプリケーションにおいて,行動決定の安全性上の障害を効果的に発見する。
論文 参考訳(メタデータ) (2022-10-29T11:34:17Z) - On the Robustness of Safe Reinforcement Learning under Observational
Perturbations [27.88525130218356]
標準RLタスクのベースライン対向攻撃技術は安全RLには必ずしも有効ではないことを示す。
興味深い反直感的な発見の1つは、最大報酬攻撃は、安全でない振る舞いを誘発し、報酬を維持することで攻撃をステルスティにすることができるため、強いものであることである。
この研究は、RLにおける観測ロバスト性と安全性の間の継承された接続に光を当て、将来の安全なRL研究のための先駆的な研究を提供する。
論文 参考訳(メタデータ) (2022-05-29T15:25:03Z) - Provably Safe Reinforcement Learning: Conceptual Analysis, Survey, and
Benchmarking [12.719948223824483]
強化学習(RL)アルゴリズムは、多くの現実世界のタスクにおいて、その潜在能力を解き放つために不可欠である。
しかしながら、バニラRLと最も安全なRLアプローチは安全性を保証するものではない。
本稿では,既存の安全なRL手法の分類を導入し,連続的および離散的な動作空間の概念的基礎を提示し,既存の手法を実証的にベンチマークする。
本稿では、安全仕様、RLアルゴリズム、アクション空間の種類に応じて、確実に安全なRLアプローチを選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2022-05-13T16:34:36Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。