論文の概要: Benefits of Monotonicity in Safe Exploration with Gaussian Processes
- arxiv url: http://arxiv.org/abs/2211.01561v2
- Date: Mon, 19 Jun 2023 12:19:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 05:19:43.762263
- Title: Benefits of Monotonicity in Safe Exploration with Gaussian Processes
- Title(参考訳): ガウス過程による安全な探査における単調性の効果
- Authors: Arpan Losalka and Jonathan Scarlett
- Abstract要約: 動作の集合上で未知の関数を逐次最大化する問題を考察する。
M-SafeUCBは、安全性、適切に定義された後悔の念、安全境界全体の発見という理論的な保証を享受していることを示す。
- 参考スコア(独自算出の注目度): 50.71125084216603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of sequentially maximising an unknown function over a
set of actions while ensuring that every sampled point has a function value
below a given safety threshold. We model the function using kernel-based and
Gaussian process methods, while differing from previous works in our assumption
that the function is monotonically increasing with respect to a \emph{safety
variable}. This assumption is motivated by various practical applications such
as adaptive clinical trial design and robotics. Taking inspiration from the
\textsc{\sffamily GP-UCB} and \textsc{\sffamily SafeOpt} algorithms, we propose
an algorithm, monotone safe {\sffamily UCB} (\textsc{\sffamily M-SafeUCB}) for
this task. We show that \textsc{\sffamily M-SafeUCB} enjoys theoretical
guarantees in terms of safety, a suitably-defined regret notion, and
approximately finding the entire safe boundary. In addition, we illustrate that
the monotonicity assumption yields significant benefits in terms of the
guarantees obtained, as well as algorithmic simplicity and efficiency. We
support our theoretical findings by performing empirical evaluations on a
variety of functions, including a simulated clinical trial experiment.
- Abstract(参考訳): 我々は,各サンプル点が所定の安全閾値以下の関数値を持つことを保証しながら,一連の動作に対して未知の関数を逐次最大化する問題を考察する。
関数はカーネルベースのガウス過程法とガウス過程法を用いてモデル化するが、関数が単調に増大しているという仮定では以前の手法と異なる。
この仮定は、適応的な臨床試験設計やロボティクスといった様々な応用によって動機付けられている。
我々は,このタスクのために, \textsc{\sffamily gp-ucb} と \textsc{\sffamily safeopt} のアルゴリズムから着想を得て monotone safe {\sffamily ucb} (\textsc{\sffamily m-safeucb}) というアルゴリズムを提案する。
我々は, 安全性, 適切に定義された後悔の概念, 安全境界全体の発見に関する理論的保証を享受していることを示す。
さらに, 単調性仮定は, アルゴリズムの単純さと効率性だけでなく, 得られる保証の観点からも有意な利益をもたらすことを示す。
本研究は, 模擬臨床試験を含む様々な機能について実験評価を行うことにより, 理論的な知見を裏付ける。
関連論文リスト
- Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。
本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Uncertainty Quantification with Bayesian Higher Order ReLU KANs [0.0]
本稿では,コルモゴロフ・アルノルドネットワークの領域における不確実性定量化手法について紹介する。
簡単な一次元関数を含む一連の閉包試験により,本手法の有効性を検証した。
本稿では,ある項を包含することで導入された機能的依存関係を正しく識別する手法の能力を実証する。
論文 参考訳(メタデータ) (2024-10-02T15:57:18Z) - No-Regret Algorithms for Safe Bayesian Optimization with Monotonicity Constraints [41.04951588017592]
未知の関数 $f$ を $(s,mathbfx)$ という形式の一連の作用に対して逐次最大化する問題を考える。
提案アルゴリズムの修正版では,各$mathbfx$に対応するほぼ最適の$s$を求めるタスクに対して,サブ線形後悔が得られることを示す。
論文 参考訳(メタデータ) (2024-06-05T13:41:26Z) - On Safety in Safe Bayesian Optimization [5.9045432488022485]
本稿では,一般的なSafeOpt型アルゴリズムの安全性に関する3つの問題について検討する。
まず、これらのアルゴリズムはガウス過程(GP)回帰に対する頻繁な境界の不確実性に批判的に依存する。
第二に、ターゲット関数の再生カーネルヒルベルト空間(RKHS)ノルム上の上限を仮定する。
第3に、SafeOptと派生アルゴリズムは離散的な検索空間に依存しており、高次元問題に適用することは困難である。
論文 参考訳(メタデータ) (2024-03-19T17:50:32Z) - Verification-Aided Learning of Neural Network Barrier Functions with
Termination Guarantees [6.9060054915724]
バリア関数は、システムの安全性を保証するための一般的なフレームワークである。
これらの関数を見つける一般的な方法は存在しない。
近年のアプローチでは、自己教師付き学習技術を用いてこれらの機能を学習している。
論文 参考訳(メタデータ) (2024-03-12T04:29:43Z) - Information-Theoretic Safe Bayesian Optimization [59.758009422067005]
そこでは、未知の(安全でない)制約に反するパラメータを評価することなく、未知の関数を最適化することを目的としている。
現在のほとんどのメソッドはドメインの離散化に依存しており、連続ケースに直接拡張することはできない。
本稿では,GP後部を直接利用して,最も情報に富む安全なパラメータを識別する情報理論的安全な探索基準を提案する。
論文 参考訳(メタデータ) (2024-02-23T14:31:10Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。