論文の概要: Benefits of Monotonicity in Safe Exploration with Gaussian Processes
- arxiv url: http://arxiv.org/abs/2211.01561v1
- Date: Thu, 3 Nov 2022 02:52:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 12:33:15.155347
- Title: Benefits of Monotonicity in Safe Exploration with Gaussian Processes
- Title(参考訳): ガウス過程による安全な探査における単調性の効果
- Authors: Arpan Losalka and Jonathan Scarlett
- Abstract要約: 動作の集合上で未知の関数を逐次最大化する問題を考察する。
M-SafeUCBは、安全性、適切に定義された後悔の概念、および安全境界全体の発見という理論的な保証を享受していることを示す。
- 参考スコア(独自算出の注目度): 50.71125084216603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of sequentially maximising an unknown function over a
set of actions while ensuring that every sampled point has a function value
below a given safety threshold. We model the function using kernel-based and
Gaussian process methods, while differing from previous works in our assumption
that the function is monotonically increasing with respect to a safety
variable. This assumption is motivated by various practical applications such
as adaptive clinical trial design and robotics. Taking inspiration from the
GP-UCB and SafeOpt algorithms, we propose an algorithm, monotone safe UCB
(M-SafeUCB) for this task. We show that M-SafeUCB enjoys theoretical guarantees
in terms of safety, a suitably-defined regret notion, and approximately finding
the entire safe boundary. In addition, we illustrate that the monotonicity
assumption yields significant benefits in terms of both the guarantees obtained
and the algorithmic simplicity. We support our theoretical findings by
performing empirical evaluations on a variety of functions.
- Abstract(参考訳): 我々は,各サンプル点が所定の安全閾値以下の関数値を持つことを保証しながら,一連の動作に対して未知の関数を逐次最大化する問題を考察する。
我々は,カーネルベースおよびガウスプロセス法を用いて関数をモデル化するが,安全変数に関して関数が単調に増加しているという仮定では従来と異なる。
この仮定は、適応的な臨床試験設計やロボティクスといった様々な応用によって動機付けられている。
GP-UCB と SafeOpt のアルゴリズムからインスピレーションを得て,この問題に対するアルゴリズムであるモノトンセーフ UCB (M-SafeUCB) を提案する。
m-safeucb は、安全性、適切に定義された後悔の概念、および安全境界全体の発見に関して理論的保証を享受している。
さらに, 単調性仮定は, 得られる保証とアルゴリズムの単純さの両方において有意な利益をもたらすことを示す。
我々は,様々な機能に関する経験的評価を行うことで理論的知見を支持する。
関連論文リスト
- Verification-Aided Learning of Neural Network Barrier Functions with
Termination Guarantees [6.9060054915724]
バリア関数は、システムの安全性を保証するための一般的なフレームワークである。
これらの関数を見つける一般的な方法は存在しない。
近年のアプローチでは、自己教師付き学習技術を用いてこれらの機能を学習している。
論文 参考訳(メタデータ) (2024-03-12T04:29:43Z) - Information-Theoretic Safe Bayesian Optimization [63.32053223422318]
そこでは、未知の(安全でない)制約に反するパラメータを評価することなく、未知の関数を最適化することを目的としている。
現在のほとんどのメソッドはドメインの離散化に依存しており、連続ケースに直接拡張することはできない。
本稿では,GP後部を直接利用して,最も情報に富む安全なパラメータを識別する情報理論的安全な探索基準を提案する。
論文 参考訳(メタデータ) (2024-02-23T14:31:10Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Gaussian Control Barrier Functions : A Non-Parametric Paradigm to Safety [7.921648699199647]
ガウス過程(GP)を用いたCBFのオンライン合成のための非パラメトリック手法を提案する。
GPは解析的トラクタビリティやロバストな不確実性推定などの非パラメトリック性に加えて、好ましい性質を持つ。
固定的かつ任意の安全な集合に対する安全な制御を実証することにより、クワッド上で実験により検証する。
論文 参考訳(メタデータ) (2022-03-29T12:21:28Z) - Adversarial Robustness Guarantees for Gaussian Processes [22.403365399119107]
ガウス過程(GP)は、モデルの不確実性の原理的計算を可能にし、安全性に重要なアプリケーションに魅力的です。
境界付き摂動に対するモデル決定の不変性として定義されるGPの対向的堅牢性を分析するためのフレームワークを提案する。
我々は境界を洗練し、任意の$epsilon > 0$に対して、我々のアルゴリズムが有限個の反復で実際の値に$epsilon$-closeの値に収束することを保証していることを示す分岐とバウンドのスキームを開発する。
論文 参考訳(メタデータ) (2021-04-07T15:14:56Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Learning Control Barrier Functions from Expert Demonstrations [69.23675822701357]
制御障壁関数(CBF)に基づく安全な制御器合成のための学習に基づくアプローチを提案する。
最適化に基づくCBFの学習手法を解析し、基礎となる力学系のリプシッツ仮定の下で証明可能な安全保証を享受する。
私たちの知る限りでは、これらはデータから確実に安全な制御障壁関数を学習する最初の結果です。
論文 参考訳(メタデータ) (2020-04-07T12:29:06Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。