論文の概要: Learning to Act Safely with Limited Exposure and Almost Sure Certainty
- arxiv url: http://arxiv.org/abs/2105.08748v1
- Date: Tue, 18 May 2021 18:05:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 01:11:26.534318
- Title: Learning to Act Safely with Limited Exposure and Almost Sure Certainty
- Title(参考訳): 限られた露出とほぼ確実性で安全に行動することを学ぶ
- Authors: Agustin Castellano, Hancheng Min, Juan Bazerque, Enrique Mallada
- Abstract要約: 本稿では,未知の環境における安全な行動を取るための学習を,探索試験を必要とせずに実現できるという考えを提唱する。
本稿では,まず標準的マルチアームバンディット問題に着目し,不確実性の存在下での学習安全性の本質的なトレードオフについて検討する。
- 参考スコア(独自算出の注目度): 1.0323063834827415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper aims to put forward the concept that learning to take safe actions
in unknown environments, even with probability one guarantees, can be achieved
without the need for an unbounded number of exploratory trials, provided that
one is willing to navigate trade-offs between optimality, level of exposure to
unsafe events, and the maximum detection time of unsafe actions. We illustrate
this concept in two complementary settings. We first focus on the canonical
multi-armed bandit problem and seek to study the intrinsic trade-offs of
learning safety in the presence of uncertainty. Under mild assumptions on
sufficient exploration, we provide an algorithm that provably detects all
unsafe machines in an (expected) finite number of rounds. The analysis also
unveils a trade-off between the number of rounds needed to secure the
environment and the probability of discarding safe machines. We then consider
the problem of finding optimal policies for a Markov Decision Process (MDP)
with almost sure constraints. We show that the (action) value function
satisfies a barrier-based decomposition which allows for the identification of
feasible policies independently of the reward process. Using this
decomposition, we develop a Barrier-learning algorithm, that identifies such
unsafe state-action pairs in a finite expected number of steps. Our analysis
further highlights a trade-off between the time lag for the underlying MDP
necessary to detect unsafe actions, and the level of exposure to unsafe events.
Simulations corroborate our theoretical findings, further illustrating the
aforementioned trade-offs, and suggesting that safety constraints can further
speed up the learning process.
- Abstract(参考訳): 本研究の目的は,未知の環境での安全行動の学習を,確率が保証されても,最適性,安全でない事象への曝露レベル,安全でない事象の最大検出時間とのトレードオフを行ない,無拘束の探索試験を必要とせずに達成できる,という概念を提唱することにある。
この概念を2つの相補的な設定で説明する。
本稿では,まず標準的マルチアームバンディット問題に着目し,不確実性の存在下での学習安全性の本質的なトレードオフについて検討する。
十分な探索に関する軽度な仮定の下で、予測された)有限個のラウンドで全ての安全でないマシンを確実に検出するアルゴリズムを提供する。
この分析はまた、環境を確保するのに必要なラウンド数と安全なマシンを捨てる確率とのトレードオフも明らかにしている。
次に、ほぼ確実に制約のあるマルコフ決定プロセス(mdp)のための最適なポリシーを見つける問題を考える。
その結果、(作用)値関数は、報酬プロセスとは独立に実現可能なポリシーを識別できるバリアベースの分解を満足していることが示される。
この分解を用いて、有限個のステップでそのような安全でない状態-作用対を識別するバリア学習アルゴリズムを開発した。
我々の分析は、安全でない行動を検出するために必要なMDPのタイムラグと、安全でない事象への暴露のレベルとのトレードオフをさらに強調している。
シミュレーションは、上記のトレードオフをさらに説明し、安全性の制約が学習プロセスのさらなるスピードアップにつながることを示唆する。
関連論文リスト
- Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Physics-informed RL for Maximal Safety Probability Estimation [0.8287206589886881]
本研究では,リスクのある状態や長期軌道からのサンプルを十分にカバーすることなく,最大安全行動の長期安全確率を推定する方法を検討する。
提案手法は,短期サンプルを用いて長期リスクを推定し,未サンプリング状態のリスクを推定する。
論文 参考訳(メタデータ) (2024-03-25T03:13:56Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - Provable Safe Reinforcement Learning with Binary Feedback [62.257383728544006]
状態, アクションペアの安全性に対するバイナリフィードバックを提供するオフラインオラクルへのアクセスを与えられた場合, 証明可能な安全なRLの問題を考える。
我々は,その設定に対してブラックボックスPAC RLアルゴリズムに与えられた任意のMDP設定に適用可能な,新しいメタアルゴリズムSABREを提案する。
論文 参考訳(メタデータ) (2022-10-26T05:37:51Z) - Safe Exploration Method for Reinforcement Learning under Existence of
Disturbance [1.1470070927586016]
我々は、障害の存在下での強化学習における安全な探索問題に対処する。
制御対象と外乱の部分的事前知識を用いた安全な探索手法を提案する。
逆振り子と4バー並列リンクロボットマニピュレータの数値シミュレーションにより,提案手法の有効性と有効性について述べる。
論文 参考訳(メタデータ) (2022-09-30T13:00:33Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Safe Exploration Incurs Nearly No Additional Sample Complexity for
Reward-free RL [43.672794342894946]
Reward-free reinforcement learning (RF-RL) は、未知の環境を探索するランダムなアクションテイクに依存する。
このような安全な探索要求が、得られた政策の計画における望ましい最適性を達成するために、対応するサンプルの複雑さにどのように影響するかは、いまだ不明である。
本稿では,Safe reWard-frEe ExploraTion (SWEET) フレームワークを提案し,Tabular-SWEET と Low-rank-SWEET というアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-28T15:00:45Z) - Fail-Safe Adversarial Generative Imitation Learning [9.594432031144716]
本稿では, 安全な生成連続ポリシー, エンドツーエンドの生成逆トレーニング, 最悪の場合の安全性保証を, クローズドフォームの確率密度/勾配で実現する安全層を提案する。
安全層は、すべてのアクションを安全なアクションの集合にマッピングし、変量式と密度の測定値の加算率を使用する。
実世界のドライバーのインタラクションデータに関する実験では,提案手法のトラクタビリティ,安全性,模倣性能を実証的に実証した。
論文 参考訳(メタデータ) (2022-03-03T13:03:06Z) - Learning to be safe, in finite time [4.189643331553922]
本稿では,未知の環境での安全な行動の学習を,確率が保証されても,無拘束の探索試験を必要とせずに実現できるという考えを提唱する。
我々は、標準的マルチアームバンディット問題に焦点をあて、安全学習における探索保存トレードオフの本質的な研究を模索する。
論文 参考訳(メタデータ) (2020-10-01T14:03:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。