論文の概要: Approximate Shielding of Atari Agents for Safe Exploration
- arxiv url: http://arxiv.org/abs/2304.11104v1
- Date: Fri, 21 Apr 2023 16:19:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-24 14:06:32.082256
- Title: Approximate Shielding of Atari Agents for Safe Exploration
- Title(参考訳): 安全探査のためのアタリ剤の近似遮蔽
- Authors: Alexander W. Goodall and Francesco Belardinelli
- Abstract要約: 遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。
本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
- 参考スコア(独自算出の注目度): 83.55437924143615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Balancing exploration and conservatism in the constrained setting is an
important problem if we are to use reinforcement learning for meaningful tasks
in the real world. In this paper, we propose a principled algorithm for safe
exploration based on the concept of shielding. Previous approaches to shielding
assume access to a safety-relevant abstraction of the environment or a
high-fidelity simulator. Instead, our work is based on latent shielding -
another approach that leverages world models to verify policy roll-outs in the
latent space of a learned dynamics model. Our novel algorithm builds on this
previous work, using safety critics and other additional features to improve
the stability and farsightedness of the algorithm. We demonstrate the
effectiveness of our approach by running experiments on a small set of Atari
games with state dependent safety labels. We present preliminary results that
show our approximate shielding algorithm effectively reduces the rate of safety
violations, and in some cases improves the speed of convergence and quality of
the final agent.
- Abstract(参考訳): 実世界で意味のあるタスクに強化学習を利用する場合、制約された環境での探索と保守のバランスをとることが重要な問題である。
本稿では,遮蔽の概念に基づく安全探査のための原理的アルゴリズムを提案する。
従来の遮蔽手法では、環境の安全関連抽象化や高忠実度シミュレータへのアクセスを前提としている。
その代わり、我々の研究は、学習された動的モデルの潜在領域におけるポリシーのロールアウトを検証するために、世界モデルを活用する潜伏遮蔽アプローチに基づいている。
提案手法は,本手法の安定性と遠近性を改善するために,安全性評価とその他の追加機能を用いて,この先行研究に基づいて構築する。
状態依存型安全ラベルを持つ小さなアタリゲーム上で実験を行うことにより,本手法の有効性を示す。
そこで本研究では,提案手法が安全性違反率を効果的に低減し,最終エージェントの収束速度と品質を改善できることを示す予備的結果を示す。
関連論文リスト
- Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - State-Wise Safe Reinforcement Learning With Pixel Observations [12.338614299403305]
本稿では,未知の危険領域に対する安全性の制約を効率的にエンコードする,新しい画素オブザービングセーフなRLアルゴリズムを提案する。
共同学習の枠組みとして,画素観測から導出した低次元潜在空間を用いた潜在力学モデルの構築から着目する。
次に、潜時力学の上に潜時バリアのような機能を構築・学習し、同時にポリシー最適化を行い、それによって安全性と総リターンの両方を改善します。
論文 参考訳(メタデータ) (2023-11-03T20:32:30Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Context-Aware Safe Reinforcement Learning for Non-Stationary
Environments [24.75527261989899]
現実的なタスクのために強化学習エージェントを展開する場合、安全は重要な問題である。
非定常環境における安全な適応を実現するために,文脈認識型安全強化学習法(CASRL)を提案する。
提案アルゴリズムは,安全性とロバスト性の観点から,既存のベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-01-02T23:52:22Z) - Verifiably Safe Exploration for End-to-End Reinforcement Learning [17.401496872603943]
本稿では,視覚的入力によるエンドツーエンドポリシーの形式的安全性制約の実施に向けた最初のアプローチを提案する。
厳密な制約の存在下で安全に探索することの難しさを強調する新しいベンチマークで評価されている。
論文 参考訳(メタデータ) (2020-07-02T16:12:20Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。