論文の概要: Learning to be safe, in finite time
- arxiv url: http://arxiv.org/abs/2010.00417v2
- Date: Wed, 31 Mar 2021 14:44:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 07:25:37.304855
- Title: Learning to be safe, in finite time
- Title(参考訳): 安全になるための学習は 有限時間に
- Authors: Agustin Castellano, Juan Bazerque, Enrique Mallada
- Abstract要約: 本稿では,未知の環境での安全な行動の学習を,確率が保証されても,無拘束の探索試験を必要とせずに実現できるという考えを提唱する。
我々は、標準的マルチアームバンディット問題に焦点をあて、安全学習における探索保存トレードオフの本質的な研究を模索する。
- 参考スコア(独自算出の注目度): 4.189643331553922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper aims to put forward the concept that learning to take safe actions
in unknown environments, even with probability one guarantees, can be achieved
without the need for an unbounded number of exploratory trials, provided that
one is willing to relax its optimality requirements mildly. We focus on the
canonical multi-armed bandit problem and seek to study the
exploration-preservation trade-off intrinsic within safe learning. More
precisely, by defining a handicap metric that counts the number of unsafe
actions, we provide an algorithm for discarding unsafe machines (or actions),
with probability one, that achieves constant handicap. Our algorithm is rooted
in the classical sequential probability ratio test, redefined here for
continuing tasks. Under standard assumptions on sufficient exploration, our
rule provably detects all unsafe machines in an (expected) finite number of
rounds. The analysis also unveils a trade-off between the number of rounds
needed to secure the environment and the probability of discarding safe
machines. Our decision rule can wrap around any other algorithm to optimize a
specific auxiliary goal since it provides a safe environment to search for
(approximately) optimal policies. Simulations corroborate our theoretical
findings and further illustrate the aforementioned trade-offs.
- Abstract(参考訳): 本稿は,未知の環境において安全な行動を取るための学習は,その最適性要件を緩やかに緩和するならば,探索的試行を無制限に行なわなくても達成できる,という概念を提起することを目的とする。
我々は、標準的マルチアームバンディット問題に焦点をあて、安全学習における探索保存トレードオフの本質的な研究を模索する。
より正確には、安全でないアクションの数を数えるハンディキャップメトリックを定義することで、安全でないマシン(またはアクション)を確率1で破棄し、一定のハンディキャップを達成するアルゴリズムを提供する。
このアルゴリズムは従来の逐次確率比テストに根ざしており、継続するタスクのためにここで再定義する。
十分な探索に関する標準的な仮定の下で、我々の規則は(予想される)有限個のラウンドにおけるすべての安全でない機械を確実に検出する。
この分析はまた、環境を確保するのに必要なラウンド数と安全なマシンを捨てる確率とのトレードオフも明らかにしている。
我々の決定ルールは、最適なポリシーを検索するための安全な環境を提供するので、特定の補助目標を最適化するための他のアルゴリズムをラップすることができる。
シミュレーションは、我々の理論的知見と、上記のトレードオフをさらに説明します。
関連論文リスト
- Can a Bayesian Oracle Prevent Harm from an Agent? [48.12936383352277]
我々は、所定の安全仕様に違反する確率に基づいて、文脈依存境界を推定することを検討する。
世界の異なる仮説が全く異なる結果をもたらす可能性があることに注意し、我々は真だが未知の仮説の下で予測される安全違反の確率に基づいて導かれる。
iidの場合と非idの場合の2つの形態を考察し、その結果を実用的なAIガードレールに変換するためのオープンな問題に結論付ける。
論文 参考訳(メタデータ) (2024-08-09T18:10:42Z) - Information-Theoretic Safe Bayesian Optimization [59.758009422067005]
そこでは、未知の(安全でない)制約に反するパラメータを評価することなく、未知の関数を最適化することを目的としている。
現在のほとんどのメソッドはドメインの離散化に依存しており、連続ケースに直接拡張することはできない。
本稿では,GP後部を直接利用して,最も情報に富む安全なパラメータを識別する情報理論的安全な探索基準を提案する。
論文 参考訳(メタデータ) (2024-02-23T14:31:10Z) - Safe Exploration in Reinforcement Learning: A Generalized Formulation
and Algorithms [8.789204441461678]
本稿では,安全な探査のためのメタアルゴリズムであるMASEの形で,安全な探査(GSE)問題の解を提案する。
提案アルゴリズムは,グリッドワールドおよびセーフティガイムベンチマークにおける最先端アルゴリズムよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-10-05T00:47:09Z) - A computationally lightweight safe learning algorithm [1.9295598343317182]
確率論的安全保証を提供するが,ナダラヤ・ワトソン推定器を利用する安全な学習アルゴリズムを提案する。
提案手法は,シミュレーションした7自由度ロボットマニピュレータ上で,理論的保証を行い,それらを安全な学習アルゴリズムに組み込んだ数値実験を行う。
論文 参考訳(メタデータ) (2023-09-07T12:21:22Z) - Information-Theoretic Safe Exploration with Gaussian Processes [89.31922008981735]
未知の(安全でない)制約に反するパラメータを評価できないような、逐次的な意思決定タスクについて検討する。
現在のほとんどのメソッドはドメインの離散化に依存しており、連続ケースに直接拡張することはできない。
本稿では,GP後部を直接利用して,最も情報に富む安全なパラメータを識別する情報理論的安全な探索基準を提案する。
論文 参考訳(メタデータ) (2022-12-09T15:23:58Z) - Provable Safe Reinforcement Learning with Binary Feedback [62.257383728544006]
状態, アクションペアの安全性に対するバイナリフィードバックを提供するオフラインオラクルへのアクセスを与えられた場合, 証明可能な安全なRLの問題を考える。
我々は,その設定に対してブラックボックスPAC RLアルゴリズムに与えられた任意のMDP設定に適用可能な,新しいメタアルゴリズムSABREを提案する。
論文 参考訳(メタデータ) (2022-10-26T05:37:51Z) - Near-Optimal Multi-Agent Learning for Safe Coverage Control [76.99020416197631]
マルチエージェントのカバレッジ制御問題では、エージェントは環境をナビゲートして、ある密度のカバレッジを最大化する位置に到達する。
本稿では,エージェントの安全性を保ちながら,その密度を効率よく学習し,カバレッジ問題を概ね解決することを目的とする。
まず、安全を確実に保証しながら、有限時間で最適範囲に近づいた結果を挙げる。
論文 参考訳(メタデータ) (2022-10-12T16:33:34Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Safe Exploration Incurs Nearly No Additional Sample Complexity for
Reward-free RL [43.672794342894946]
Reward-free reinforcement learning (RF-RL) は、未知の環境を探索するランダムなアクションテイクに依存する。
このような安全な探索要求が、得られた政策の計画における望ましい最適性を達成するために、対応するサンプルの複雑さにどのように影響するかは、いまだ不明である。
本稿では,Safe reWard-frEe ExploraTion (SWEET) フレームワークを提案し,Tabular-SWEET と Low-rank-SWEET というアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-28T15:00:45Z) - Safe Reinforcement Learning by Imagining the Near Future [37.0376099401243]
本研究は, 短期的に計画することで, 安全でない状態を回避できるような環境に着目する。
我々は、安全でない軌跡を過度に罰するモデルに基づくアルゴリズムを考案し、そのアルゴリズムが特定の仮定の下で安全でない状態を回避できることを保証する。
実験により, 連続制御タスクにおいて, 安全性違反が少なく, 競争力のある報奨を達成できることが実証された。
論文 参考訳(メタデータ) (2022-02-15T23:28:24Z) - Learning to Act Safely with Limited Exposure and Almost Sure Certainty [1.0323063834827415]
本稿では,未知の環境における安全な行動を取るための学習を,探索試験を必要とせずに実現できるという考えを提唱する。
本稿では,まず標準的マルチアームバンディット問題に着目し,不確実性の存在下での学習安全性の本質的なトレードオフについて検討する。
論文 参考訳(メタデータ) (2021-05-18T18:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。