論文の概要: Safe Exploration Method for Reinforcement Learning under Existence of
Disturbance
- arxiv url: http://arxiv.org/abs/2209.15452v2
- Date: Mon, 20 Mar 2023 06:46:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 03:02:50.286223
- Title: Safe Exploration Method for Reinforcement Learning under Existence of
Disturbance
- Title(参考訳): 外乱発生下における強化学習の安全な探索法
- Authors: Yoshihiro Okawa, Tomotake Sasaki, Hitoshi Yanami, Toru Namerikawa
- Abstract要約: 我々は、障害の存在下での強化学習における安全な探索問題に対処する。
制御対象と外乱の部分的事前知識を用いた安全な探索手法を提案する。
逆振り子と4バー並列リンクロボットマニピュレータの数値シミュレーションにより,提案手法の有効性と有効性について述べる。
- 参考スコア(独自算出の注目度): 1.1470070927586016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent rapid developments in reinforcement learning algorithms have been
giving us novel possibilities in many fields. However, due to their exploring
property, we have to take the risk into consideration when we apply those
algorithms to safety-critical problems especially in real environments. In this
study, we deal with a safe exploration problem in reinforcement learning under
the existence of disturbance. We define the safety during learning as
satisfaction of the constraint conditions explicitly defined in terms of the
state and propose a safe exploration method that uses partial prior knowledge
of a controlled object and disturbance. The proposed method assures the
satisfaction of the explicit state constraints with a pre-specified probability
even if the controlled object is exposed to a stochastic disturbance following
a normal distribution. As theoretical results, we introduce sufficient
conditions to construct conservative inputs not containing an exploring aspect
used in the proposed method and prove that the safety in the above explained
sense is guaranteed with the proposed method. Furthermore, we illustrate the
validity and effectiveness of the proposed method through numerical simulations
of an inverted pendulum and a four-bar parallel link robot manipulator.
- Abstract(参考訳): 最近の強化学習アルゴリズムの急速な発展は、多くの分野で新しい可能性をもたらしている。
しかし,その探索的特性から,特に実環境において,これらのアルゴリズムを安全クリティカルな問題に適用する場合,リスクを考慮する必要がある。
本研究では,外乱の存在下での強化学習における安全な探索問題に対処する。
学習中の安全性を,状態の観点で明示的に定義された制約条件の満足度と定義し,制御対象と外乱の事前知識を用いた安全な探索手法を提案する。
提案手法は,制御対象が正規分布後の確率的乱れにさらされても,事前特定確率で明示的状態制約の満足度を保証する。
理論的な結果として,提案手法における探索的側面を含まない保存的入力を構成するのに十分な条件を導入し,本手法の安全性が保証されることを示す。
さらに,逆振り子と4バー並列リンクロボットマニピュレータの数値シミュレーションにより,提案手法の有効性と有効性について述べる。
関連論文リスト
- Safe Reinforcement Learning for Constrained Markov Decision Processes with Stochastic Stopping Time [0.6554326244334868]
安全制約付きマルコフ決定過程に対するオンライン強化学習アルゴリズムを提案する。
学習方針は高い信頼を持って安全であることを示す。
また、プロキシセットと呼ばれる状態空間のサブセットを定義することで、効率的な探索を実現することができることを示す。
論文 参考訳(メタデータ) (2024-03-23T20:22:30Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Probabilistic Counterexample Guidance for Safer Reinforcement Learning
(Extended Version) [1.279257604152629]
セーフサーベイは、安全クリティカルなシナリオにおける強化学習(RL)の限界に対処することを目的としている。
外部知識を取り入れたり、センサデータを使って安全でない状態の探索を制限する方法はいくつか存在する。
本稿では,安全要件の反例によるトレーニングを指導することで,安全な探査の課題をターゲットにする。
論文 参考訳(メタデータ) (2023-07-10T22:28:33Z) - Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。
本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文 参考訳(メタデータ) (2023-04-21T16:19:54Z) - Information-Theoretic Safe Exploration with Gaussian Processes [89.31922008981735]
未知の(安全でない)制約に反するパラメータを評価できないような、逐次的な意思決定タスクについて検討する。
現在のほとんどのメソッドはドメインの離散化に依存しており、連続ケースに直接拡張することはできない。
本稿では,GP後部を直接利用して,最も情報に富む安全なパラメータを識別する情報理論的安全な探索基準を提案する。
論文 参考訳(メタデータ) (2022-12-09T15:23:58Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Automatic Exploration Process Adjustment for Safe Reinforcement Learning
with Joint Chance Constraint Satisfaction [2.127049691404299]
安全強化学習アルゴリズムのための探索過程の自動調整手法を提案する。
提案手法では,探索入力が,その状態とその予測値に応じて毎回使用されるか否かを自動的に選択する。
提案手法は, 予め特定された確率, すなわち, 毎回共同確率制約の満足度と制約の満足度を理論的に保証する。
論文 参考訳(メタデータ) (2021-03-05T13:30:53Z) - Context-Aware Safe Reinforcement Learning for Non-Stationary
Environments [24.75527261989899]
現実的なタスクのために強化学習エージェントを展開する場合、安全は重要な問題である。
非定常環境における安全な適応を実現するために,文脈認識型安全強化学習法(CASRL)を提案する。
提案アルゴリズムは,安全性とロバスト性の観点から,既存のベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-01-02T23:52:22Z) - Towards Safe Policy Improvement for Non-Stationary MDPs [48.9966576179679]
多くの実世界の利害問題は非定常性を示し、利害関係が高ければ、偽の定常性仮定に関連するコストは受け入れがたい。
我々は、スムーズに変化する非定常的な意思決定問題に対して、高い信頼性で安全性を確保するための第一歩を踏み出します。
提案手法は,時系列解析を用いたモデルフリー強化学習の合成により,セルドンアルゴリズムと呼ばれる安全なアルゴリズムを拡張した。
論文 参考訳(メタデータ) (2020-10-23T20:13:51Z) - Provably Safe PAC-MDP Exploration Using Analogies [87.41775218021044]
安全クリティカルドメインに強化学習を適用する上での課題は、探索と安全性のバランスをとる方法を理解することだ。
我々は,未知のダイナミックスを持つMDPにおいて,確実に安全な探索を行うアルゴリズムであるAnalogous Safe-State Exploration (ASE)を提案する。
提案手法は, PAC-MDP 感覚の準最適政策を安全に学習するために, 状態-作用対間の類似性を利用する。
論文 参考訳(メタデータ) (2020-07-07T15:50:50Z) - Safe reinforcement learning for probabilistic reachability and safety
specifications: A Lyapunov-based approach [2.741266294612776]
安全運転の最大確率を学習するモデルフリー安全仕様法を提案する。
提案手法は, 各政策改善段階を抑制するための安全な政策に関して, リャプノフ関数を構築する。
安全集合と呼ばれる安全な操作範囲を決定する一連の安全なポリシーを導出する。
論文 参考訳(メタデータ) (2020-02-24T09:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。