論文の概要: Learning to explore when mistakes are not allowed
- arxiv url: http://arxiv.org/abs/2502.13801v1
- Date: Wed, 19 Feb 2025 15:11:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 13:58:37.325910
- Title: Learning to explore when mistakes are not allowed
- Title(参考訳): 過ちが許されないときを探ることを学ぶ
- Authors: Charly Pecqueux-Guézénec, Stéphane Doncieux, Nicolas Perrin-Gilbert,
- Abstract要約: 本研究では,悪質なミスを犯すリスクを伴わずに探索する目標条件付き行動の学習を可能にする手法を提案する。
リスクのない探査はパラドックス的に見えるが、環境力学はしばしば宇宙で均一である。
本手法をシミュレーション環境で評価し,目標空間のかなりのカバレッジを提供するだけでなく,ミスの発生を最小限に抑えることを示す。
- 参考スコア(独自算出の注目度): 1.179778723980276
- License:
- Abstract: Goal-Conditioned Reinforcement Learning (GCRL) provides a versatile framework for developing unified controllers capable of handling wide ranges of tasks, exploring environments, and adapting behaviors. However, its reliance on trial-and-error poses challenges for real-world applications, as errors can result in costly and potentially damaging consequences. To address the need for safer learning, we propose a method that enables agents to learn goal-conditioned behaviors that explore without the risk of making harmful mistakes. Exploration without risks can seem paradoxical, but environment dynamics are often uniform in space, therefore a policy trained for safety without exploration purposes can still be exploited globally. Our proposed approach involves two distinct phases. First, during a pretraining phase, we employ safe reinforcement learning and distributional techniques to train a safety policy that actively tries to avoid failures in various situations. In the subsequent safe exploration phase, a goal-conditioned (GC) policy is learned while ensuring safety. To achieve this, we implement an action-selection mechanism leveraging the previously learned distributional safety critics to arbitrate between the safety policy and the GC policy, ensuring safe exploration by switching to the safety policy when needed. We evaluate our method in simulated environments and demonstrate that it not only provides substantial coverage of the goal space but also reduces the occurrence of mistakes to a minimum, in stark contrast to traditional GCRL approaches. Additionally, we conduct an ablation study and analyze failure modes, offering insights for future research directions.
- Abstract(参考訳): Goal-Conditioned Reinforcement Learning (GCRL)は、幅広いタスクを処理し、環境を探索し、振る舞いを適応できる統一コントローラを開発するための汎用的なフレームワークを提供する。
しかし、試行錯誤への依存は、エラーが高価で潜在的に有害な結果をもたらす可能性があるため、現実世界のアプリケーションに課題をもたらす。
より安全な学習の必要性に対処するため,エージェントは有害なミスを犯すことなく探索する目標条件付き行動を学ぶことができる方法を提案する。
リスクのない探査はパラドックス的に見えるが、環境力学はしばしば宇宙空間で均一であるため、探査目的のない安全のために訓練された政策は世界規模で利用することができる。
提案手法は2つの異なる位相を含む。
まず,プレトレーニング期間中に安全強化学習と配電技術を用いて,様々な状況における障害回避を積極的に進める安全政策を訓練する。
その後の安全な探査段階では、安全を確保しつつ目標条件付き(GC)ポリシーが学習される。
そこで我々は,これまで学習してきた流通安全評論家による安全ポリシーとGCポリシーの仲裁による行動選択機構を実装し,必要に応じて安全ポリシーに切り替えることによる安全な探索を確実にする。
我々は,本手法をシミュレーション環境で評価し,目標空間のかなりのカバレッジを提供するだけでなく,従来のGCRLアプローチとは対照的に,ミスの発生を最小限に抑えることを示した。
さらに、私たちはアブレーション研究を行い、障害モードを分析し、将来の研究方向性について洞察を提供する。
関連論文リスト
- RACER: Epistemic Risk-Sensitive RL Enables Fast Driving with Fewer Crashes [57.319845580050924]
本稿では,リスク感応制御と適応行動空間のカリキュラムを組み合わせた強化学習フレームワークを提案する。
提案アルゴリズムは,現実世界のオフロード運転タスクに対して,高速なポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2024-05-07T23:32:36Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Probabilistic Counterexample Guidance for Safer Reinforcement Learning
(Extended Version) [1.279257604152629]
セーフサーベイは、安全クリティカルなシナリオにおける強化学習(RL)の限界に対処することを目的としている。
外部知識を取り入れたり、センサデータを使って安全でない状態の探索を制限する方法はいくつか存在する。
本稿では,安全要件の反例によるトレーニングを指導することで,安全な探査の課題をターゲットにする。
論文 参考訳(メタデータ) (2023-07-10T22:28:33Z) - Safe Reinforcement Learning with Dead-Ends Avoidance and Recovery [13.333197887318168]
安全は、現実的な環境課題に強化学習を適用する上で大きな課題の1つである。
安全かつ安全でない状態を識別する境界を構築する手法を提案する。
我々の手法は、最先端のアルゴリズムよりも安全性違反が少ないタスク性能を持つ。
論文 参考訳(メタデータ) (2023-06-24T12:02:50Z) - MESA: Offline Meta-RL for Safe Adaptation and Fault Tolerance [73.3242641337305]
最近の研究は、制約に違反する確率を測定するリスク尺度を学習し、安全を可能にするために使用することができる。
我々は,安全な探索をオフラインのメタRL問題とみなし,様々な環境における安全かつ安全でない行動の例を活用することを目的としている。
次に,メタラーニングシミュレーションのアプローチであるMESA(Meta-learning for Safe Adaptation)を提案する。
論文 参考訳(メタデータ) (2021-12-07T08:57:35Z) - Learning Barrier Certificates: Towards Safe Reinforcement Learning with
Zero Training-time Violations [64.39401322671803]
本稿では、トレーニング時安全違反をゼロとした安全RLアルゴリズムの可能性について検討する。
本稿では、バリア証明書、動的モデル、ポリシーを反復的に学習する、CRABS(Co-trained Barrier Certificate for Safe RL)を提案する。
論文 参考訳(メタデータ) (2021-08-04T04:59:05Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z) - Provably Safe PAC-MDP Exploration Using Analogies [87.41775218021044]
安全クリティカルドメインに強化学習を適用する上での課題は、探索と安全性のバランスをとる方法を理解することだ。
我々は,未知のダイナミックスを持つMDPにおいて,確実に安全な探索を行うアルゴリズムであるAnalogous Safe-State Exploration (ASE)を提案する。
提案手法は, PAC-MDP 感覚の準最適政策を安全に学習するために, 状態-作用対間の類似性を利用する。
論文 参考訳(メタデータ) (2020-07-07T15:50:50Z) - Safe reinforcement learning for probabilistic reachability and safety
specifications: A Lyapunov-based approach [2.741266294612776]
安全運転の最大確率を学習するモデルフリー安全仕様法を提案する。
提案手法は, 各政策改善段階を抑制するための安全な政策に関して, リャプノフ関数を構築する。
安全集合と呼ばれる安全な操作範囲を決定する一連の安全なポリシーを導出する。
論文 参考訳(メタデータ) (2020-02-24T09:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。