Fugu-MT 論文翻訳(概要): Benefits of Monotonicity in Safe Exploration with Gaussian Processes

論文の概要: Benefits of Monotonicity in Safe Exploration with Gaussian Processes

arxiv url: http://arxiv.org/abs/2211.01561v1
Date: Thu, 3 Nov 2022 02:52:30 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-04 12:33:15.155347
Title: Benefits of Monotonicity in Safe Exploration with Gaussian Processes
Title（参考訳）: ガウス過程による安全な探査における単調性の効果
Authors: Arpan Losalka and Jonathan Scarlett
Abstract要約: 動作の集合上で未知の関数を逐次最大化する問題を考察する。 M-SafeUCBは、安全性、適切に定義された後悔の概念、および安全境界全体の発見という理論的な保証を享受していることを示す。
参考スコア（独自算出の注目度）: 50.71125084216603
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider the problem of sequentially maximising an unknown function over a set of actions while ensuring that every sampled point has a function value below a given safety threshold. We model the function using kernel-based and Gaussian process methods, while differing from previous works in our assumption that the function is monotonically increasing with respect to a safety variable. This assumption is motivated by various practical applications such as adaptive clinical trial design and robotics. Taking inspiration from the GP-UCB and SafeOpt algorithms, we propose an algorithm, monotone safe UCB (M-SafeUCB) for this task. We show that M-SafeUCB enjoys theoretical guarantees in terms of safety, a suitably-defined regret notion, and approximately finding the entire safe boundary. In addition, we illustrate that the monotonicity assumption yields significant benefits in terms of both the guarantees obtained and the algorithmic simplicity. We support our theoretical findings by performing empirical evaluations on a variety of functions.
Abstract（参考訳）: 我々は,各サンプル点が所定の安全閾値以下の関数値を持つことを保証しながら,一連の動作に対して未知の関数を逐次最大化する問題を考察する。我々は,カーネルベースおよびガウスプロセス法を用いて関数をモデル化するが,安全変数に関して関数が単調に増加しているという仮定では従来と異なる。この仮定は、適応的な臨床試験設計やロボティクスといった様々な応用によって動機付けられている。 GP-UCB と SafeOpt のアルゴリズムからインスピレーションを得て,この問題に対するアルゴリズムであるモノトンセーフ UCB (M-SafeUCB) を提案する。 m-safeucb は、安全性、適切に定義された後悔の概念、および安全境界全体の発見に関して理論的保証を享受している。さらに, 単調性仮定は, 得られる保証とアルゴリズムの単純さの両方において有意な利益をもたらすことを示す。我々は,様々な機能に関する経験的評価を行うことで理論的知見を支持する。

関連論文リスト

Outcome-Based Online Reinforcement Learning: Algorithms and Fundamental Limits [58.63897489864948]
結果に基づくフィードバックによる強化学習は、根本的な課題に直面します。適切なアクションにクレジットを割り当てるには? 本稿では,一般関数近似を用いたオンラインRLにおけるこの問題の包括的解析を行う。
論文参考訳（メタデータ） (2025-05-26T17:44:08Z)
Finite-Sample-Based Reachability for Safe Control with Gaussian Process Dynamics [35.79393879150088]
本稿では,保守主義を回避しつつ,モデルの不確実性を効率的に伝播するサンプリングベースフレームワークを提案する。提案手法は,精度の高い到達可能集合オーバー近似と安全なクローズドループ性能を示す。
論文参考訳（メタデータ） (2025-05-12T14:20:20Z)
Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文参考訳（メタデータ） (2024-10-21T15:34:44Z)
Uncertainty Quantification with Bayesian Higher Order ReLU KANs [0.0]
本稿では,コルモゴロフ・アルノルドネットワークの領域における不確実性定量化手法について紹介する。簡単な一次元関数を含む一連の閉包試験により,本手法の有効性を検証した。本稿では,ある項を包含することで導入された機能的依存関係を正しく識別する手法の能力を実証する。
論文参考訳（メタデータ） (2024-10-02T15:57:18Z)
No-Regret Algorithms for Safe Bayesian Optimization with Monotonicity Constraints [41.04951588017592]
未知の関数 $f$ を $(s,mathbfx)$ という形式の一連の作用に対して逐次最大化する問題を考える。提案アルゴリズムの修正版では,各$mathbfx$に対応するほぼ最適の$s$を求めるタスクに対して,サブ線形後悔が得られることを示す。
論文参考訳（メタデータ） (2024-06-05T13:41:26Z)
On Safety in Safe Bayesian Optimization [5.9045432488022485]
本稿では,一般的なSafeOpt型アルゴリズムの安全性に関する3つの問題について検討する。まず、これらのアルゴリズムはガウス過程(GP)回帰に対する頻繁な境界の不確実性に批判的に依存する。第二に、ターゲット関数の再生カーネルヒルベルト空間(RKHS)ノルム上の上限を仮定する。第3に、SafeOptと派生アルゴリズムは離散的な検索空間に依存しており、高次元問題に適用することは困難である。
論文参考訳（メタデータ） (2024-03-19T17:50:32Z)
Verification-Aided Learning of Neural Network Barrier Functions with Termination Guarantees [6.9060054915724]
バリア関数は、システムの安全性を保証するための一般的なフレームワークである。これらの関数を見つける一般的な方法は存在しない。近年のアプローチでは、自己教師付き学習技術を用いてこれらの機能を学習している。
論文参考訳（メタデータ） (2024-03-12T04:29:43Z)
Information-Theoretic Safe Bayesian Optimization [59.758009422067005]
そこでは、未知の(安全でない)制約に反するパラメータを評価することなく、未知の関数を最適化することを目的としている。現在のほとんどのメソッドはドメインの離散化に依存しており、連続ケースに直接拡張することはできない。本稿では,GP後部を直接利用して,最も情報に富む安全なパラメータを識別する情報理論的安全な探索基準を提案する。
論文参考訳（メタデータ） (2024-02-23T14:31:10Z)
Log Barriers for Safe Black-box Optimization with Application to Safe Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。 LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文参考訳（メタデータ） (2022-07-21T11:14:47Z)
Provably Efficient Reward-Agnostic Navigation with Linear Value Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文参考訳（メタデータ） (2020-08-18T04:34:21Z)
Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-03-01T17:47:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。