論文の概要: Benefits of Monotonicity in Safe Exploration with Gaussian Processes
- arxiv url: http://arxiv.org/abs/2211.01561v2
- Date: Mon, 19 Jun 2023 12:19:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 05:19:43.762263
- Title: Benefits of Monotonicity in Safe Exploration with Gaussian Processes
- Title(参考訳): ガウス過程による安全な探査における単調性の効果
- Authors: Arpan Losalka and Jonathan Scarlett
- Abstract要約: 動作の集合上で未知の関数を逐次最大化する問題を考察する。
M-SafeUCBは、安全性、適切に定義された後悔の念、安全境界全体の発見という理論的な保証を享受していることを示す。
- 参考スコア(独自算出の注目度): 50.71125084216603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of sequentially maximising an unknown function over a
set of actions while ensuring that every sampled point has a function value
below a given safety threshold. We model the function using kernel-based and
Gaussian process methods, while differing from previous works in our assumption
that the function is monotonically increasing with respect to a \emph{safety
variable}. This assumption is motivated by various practical applications such
as adaptive clinical trial design and robotics. Taking inspiration from the
\textsc{\sffamily GP-UCB} and \textsc{\sffamily SafeOpt} algorithms, we propose
an algorithm, monotone safe {\sffamily UCB} (\textsc{\sffamily M-SafeUCB}) for
this task. We show that \textsc{\sffamily M-SafeUCB} enjoys theoretical
guarantees in terms of safety, a suitably-defined regret notion, and
approximately finding the entire safe boundary. In addition, we illustrate that
the monotonicity assumption yields significant benefits in terms of the
guarantees obtained, as well as algorithmic simplicity and efficiency. We
support our theoretical findings by performing empirical evaluations on a
variety of functions, including a simulated clinical trial experiment.
- Abstract(参考訳): 我々は,各サンプル点が所定の安全閾値以下の関数値を持つことを保証しながら,一連の動作に対して未知の関数を逐次最大化する問題を考察する。
関数はカーネルベースのガウス過程法とガウス過程法を用いてモデル化するが、関数が単調に増大しているという仮定では以前の手法と異なる。
この仮定は、適応的な臨床試験設計やロボティクスといった様々な応用によって動機付けられている。
我々は,このタスクのために, \textsc{\sffamily gp-ucb} と \textsc{\sffamily safeopt} のアルゴリズムから着想を得て monotone safe {\sffamily ucb} (\textsc{\sffamily m-safeucb}) というアルゴリズムを提案する。
我々は, 安全性, 適切に定義された後悔の概念, 安全境界全体の発見に関する理論的保証を享受していることを示す。
さらに, 単調性仮定は, アルゴリズムの単純さと効率性だけでなく, 得られる保証の観点からも有意な利益をもたらすことを示す。
本研究は, 模擬臨床試験を含む様々な機能について実験評価を行うことにより, 理論的な知見を裏付ける。
関連論文リスト
- No-Regret Algorithms for Safe Bayesian Optimization with Monotonicity Constraints [41.04951588017592]
未知の関数 $f$ を $(s,mathbfx)$ という形式の一連の作用に対して逐次最大化する問題を考える。
提案アルゴリズムの修正版では,各$mathbfx$に対応するほぼ最適の$s$を求めるタスクに対して,サブ線形後悔が得られることを示す。
論文 参考訳(メタデータ) (2024-06-05T13:41:26Z) - On Safety in Safe Bayesian Optimization [5.9045432488022485]
本稿では,一般的なSafeOpt型アルゴリズムの安全性に関する3つの問題について検討する。
まず、これらのアルゴリズムはガウス過程(GP)回帰に対する頻繁な境界の不確実性に批判的に依存する。
第二に、ターゲット関数の再生カーネルヒルベルト空間(RKHS)ノルム上の上限を仮定する。
第3に、SafeOptと派生アルゴリズムは離散的な検索空間に依存しており、高次元問題に適用することは困難である。
論文 参考訳(メタデータ) (2024-03-19T17:50:32Z) - Verification-Aided Learning of Neural Network Barrier Functions with
Termination Guarantees [6.9060054915724]
バリア関数は、システムの安全性を保証するための一般的なフレームワークである。
これらの関数を見つける一般的な方法は存在しない。
近年のアプローチでは、自己教師付き学習技術を用いてこれらの機能を学習している。
論文 参考訳(メタデータ) (2024-03-12T04:29:43Z) - Information-Theoretic Safe Bayesian Optimization [59.758009422067005]
そこでは、未知の(安全でない)制約に反するパラメータを評価することなく、未知の関数を最適化することを目的としている。
現在のほとんどのメソッドはドメインの離散化に依存しており、連続ケースに直接拡張することはできない。
本稿では,GP後部を直接利用して,最も情報に富む安全なパラメータを識別する情報理論的安全な探索基準を提案する。
論文 参考訳(メタデータ) (2024-02-23T14:31:10Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Gaussian Control Barrier Functions : A Non-Parametric Paradigm to Safety [7.921648699199647]
ガウス過程(GP)を用いたCBFのオンライン合成のための非パラメトリック手法を提案する。
GPは解析的トラクタビリティやロバストな不確実性推定などの非パラメトリック性に加えて、好ましい性質を持つ。
固定的かつ任意の安全な集合に対する安全な制御を実証することにより、クワッド上で実験により検証する。
論文 参考訳(メタデータ) (2022-03-29T12:21:28Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Learning Control Barrier Functions from Expert Demonstrations [69.23675822701357]
制御障壁関数(CBF)に基づく安全な制御器合成のための学習に基づくアプローチを提案する。
最適化に基づくCBFの学習手法を解析し、基礎となる力学系のリプシッツ仮定の下で証明可能な安全保証を享受する。
私たちの知る限りでは、これらはデータから確実に安全な制御障壁関数を学習する最初の結果です。
論文 参考訳(メタデータ) (2020-04-07T12:29:06Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。