論文の概要: A Safe Exploration Strategy for Model-free Task Adaptation in Safety-constrained Grid Environments
- arxiv url: http://arxiv.org/abs/2408.00997v1
- Date: Fri, 2 Aug 2024 04:09:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 14:36:49.803784
- Title: A Safe Exploration Strategy for Model-free Task Adaptation in Safety-constrained Grid Environments
- Title(参考訳): 安全制約グリッド環境におけるモデルフリータスク適応のための安全な探索戦略
- Authors: Erfan Entezami, Mahsa Sahebdel, Dhawal Gupta,
- Abstract要約: 安全に制約された環境では、教師なしの探査や非最適政策を利用すると、エージェントは望ましくない状態に陥る可能性がある。
モデルフリーエージェントが安全制約に固執しながら環境と対話できるグリッド環境をナビゲートするための新しい探索フレームワークを提案する。
- 参考スコア(独自算出の注目度): 2.5037136114892267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training a model-free reinforcement learning agent requires allowing the agent to sufficiently explore the environment to search for an optimal policy. In safety-constrained environments, utilizing unsupervised exploration or a non-optimal policy may lead the agent to undesirable states, resulting in outcomes that are potentially costly or hazardous for both the agent and the environment. In this paper, we introduce a new exploration framework for navigating the grid environments that enables model-free agents to interact with the environment while adhering to safety constraints. Our framework includes a pre-training phase, during which the agent learns to identify potentially unsafe states based on both observable features and specified safety constraints in the environment. Subsequently, a binary classification model is trained to predict those unsafe states in new environments that exhibit similar dynamics. This trained classifier empowers model-free agents to determine situations in which employing random exploration or a suboptimal policy may pose safety risks, in which case our framework prompts the agent to follow a predefined safe policy to mitigate the potential for hazardous consequences. We evaluated our framework on three randomly generated grid environments and demonstrated how model-free agents can safely adapt to new tasks and learn optimal policies for new environments. Our results indicate that by defining an appropriate safe policy and utilizing a well-trained model to detect unsafe states, our framework enables a model-free agent to adapt to new tasks and environments with significantly fewer safety violations.
- Abstract(参考訳): モデルのない強化学習エージェントを訓練するには、エージェントが最適なポリシーを探すのに十分な環境を探索することが必要である。
安全に制約された環境では、監督されていない探索または非最適政策を利用することで、エージェントは望ましくない状態に陥り、エージェントと環境の両方にとってコストがかかるか有害な結果をもたらす可能性がある。
本稿では,モデルフリーエージェントが安全制約に固執しながら環境と対話できるグリッド環境をナビゲートするための新しい探索フレームワークを提案する。
我々のフレームワークには事前学習フェーズが含まれており、その間、エージェントは、観測可能な特徴と環境内の特定の安全制約の両方に基づいて、潜在的に安全でない状態を特定することを学習する。
その後、二項分類モデルは、同様のダイナミクスを示す新しい環境において、これらの安全でない状態を予測するために訓練される。
この訓練された分類器は、モデルフリーエージェントにランダムな探索や準最適政策を採用する状況を決定する権限を与え、その場合、我々のフレームワークは、危険をもたらす可能性を軽減するために、事前に定義された安全なポリシーに従うようエージェントに促す。
ランダムに生成された3つのグリッド環境におけるフレームワークの評価を行い、モデルフリーエージェントが新しいタスクに安全に適応し、新しい環境に対する最適なポリシーを学習する方法を実証した。
その結果, 適切な安全ポリシーを定義し, 十分に訓練されたモデルを用いて安全でない状態を検出することにより, モデルフリーエージェントが新たなタスクや環境に適応し, 安全性違反が著しく少ないことが示唆された。
関連論文リスト
- Anomalous State Sequence Modeling to Enhance Safety in Reinforcement Learning [0.0]
本稿では,RLの安全性を高めるために,異常状態列を利用した安全強化学習(RL)手法を提案する。
自動運転車を含む複数の安全クリティカルな環境の実験において、我々のソリューションアプローチはより安全なポリシーをうまく学習する。
論文 参考訳(メタデータ) (2024-07-29T10:30:07Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - Probabilistic Counterexample Guidance for Safer Reinforcement Learning
(Extended Version) [1.279257604152629]
セーフサーベイは、安全クリティカルなシナリオにおける強化学習(RL)の限界に対処することを目的としている。
外部知識を取り入れたり、センサデータを使って安全でない状態の探索を制限する方法はいくつか存在する。
本稿では,安全要件の反例によるトレーニングを指導することで,安全な探査の課題をターゲットにする。
論文 参考訳(メタデータ) (2023-07-10T22:28:33Z) - Risk-Averse Model Uncertainty for Distributionally Robust Safe
Reinforcement Learning [3.9821399546174825]
不確実な環境での安全な意思決定のための深層強化学習フレームワークを提案する。
我々は,このフレームワークに対して,分散的に堅牢な強化学習問題の特定のクラスと等価であることを示すことによって,堅牢性を保証する。
安全性の制約のある継続的制御タスクの実験では、当社のフレームワークが、さまざまな障害のあるテスト環境にわたるデプロイメント時に、堅牢なパフォーマンスと安全性を実現していることを示す。
論文 参考訳(メタデータ) (2023-01-30T00:37:06Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - MESA: Offline Meta-RL for Safe Adaptation and Fault Tolerance [73.3242641337305]
最近の研究は、制約に違反する確率を測定するリスク尺度を学習し、安全を可能にするために使用することができる。
我々は,安全な探索をオフラインのメタRL問題とみなし,様々な環境における安全かつ安全でない行動の例を活用することを目的としている。
次に,メタラーニングシミュレーションのアプローチであるMESA(Meta-learning for Safe Adaptation)を提案する。
論文 参考訳(メタデータ) (2021-12-07T08:57:35Z) - Context-Aware Safe Reinforcement Learning for Non-Stationary
Environments [24.75527261989899]
現実的なタスクのために強化学習エージェントを展開する場合、安全は重要な問題である。
非定常環境における安全な適応を実現するために,文脈認識型安全強化学習法(CASRL)を提案する。
提案アルゴリズムは,安全性とロバスト性の観点から,既存のベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-01-02T23:52:22Z) - Cautious Adaptation For Reinforcement Learning in Safety-Critical
Settings [129.80279257258098]
都市運転のような現実の安全クリティカルな目標設定における強化学習(RL)は危険である。
非安全クリティカルな「ソース」環境でエージェントが最初に訓練する「安全クリティカル適応」タスクセットを提案する。
多様な環境における事前経験がリスクを見積もるためにエージェントに装備するという直感に基づくソリューションアプローチであるCARLを提案する。
論文 参考訳(メタデータ) (2020-08-15T01:40:59Z) - Safe Reinforcement Learning via Curriculum Induction [94.67835258431202]
安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。
既存の安全な強化学習手法は、エージェントが危険な状況を避けるために、事前にエージェントを頼りにしている。
本稿では,エージェントが自動インストラクターの指導の下で学習する,人間の指導にインスパイアされた代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。