論文の概要: Regret Bounds for Safe Gaussian Process Bandit Optimization
- arxiv url: http://arxiv.org/abs/2005.01936v1
- Date: Tue, 5 May 2020 03:54:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 13:33:26.468444
- Title: Regret Bounds for Safe Gaussian Process Bandit Optimization
- Title(参考訳): 安全なガウスプロセス帯域最適化のためのレグレト境界
- Authors: Sanae Amani, Mahnoosh Alizadeh, Christos Thrampoulidis
- Abstract要約: 安全クリティカルなシステムでは、学習者の行動が学習プロセスのどの段階においても安全上の制約に違反しないことが最重要である。
我々は,SGP-UCBと呼ばれるGP-UCBの安全版を開発し,各ラウンドの安全制約を尊重するために必要な修正を行った。
- 参考スコア(独自算出の注目度): 42.336882999112845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many applications require a learner to make sequential decisions given
uncertainty regarding both the system's payoff function and safety constraints.
In safety-critical systems, it is paramount that the learner's actions do not
violate the safety constraints at any stage of the learning process. In this
paper, we study a stochastic bandit optimization problem where the unknown
payoff and constraint functions are sampled from Gaussian Processes (GPs) first
considered in [Srinivas et al., 2010]. We develop a safe variant of GP-UCB
called SGP-UCB, with necessary modifications to respect safety constraints at
every round. The algorithm has two distinct phases. The first phase seeks to
estimate the set of safe actions in the decision set, while the second phase
follows the GP-UCB decision rule. Our main contribution is to derive the first
sub-linear regret bounds for this problem. We numerically compare SGP-UCB
against existing safe Bayesian GP optimization algorithms.
- Abstract(参考訳): 多くのアプリケーションでは、システムの給与関数と安全制約の両方について不確実性があるため、学習者が逐次決定を行う必要がある。
安全クリティカルなシステムでは、学習者の行動が学習過程のどの段階においても安全制約に違反しないことが最重要である。
本稿では,まず[srinivas et al., 2010]で考察したガウス過程(gps)から未知のペイオフと制約関数をサンプリングした確率的バンディット最適化問題について検討する。
我々は,SGP-UCBと呼ばれるGP-UCBの安全版を開発し,各ラウンドの安全制約を尊重するために必要な修正を行った。
アルゴリズムには2つの異なるフェーズがある。
第1フェーズは、決定セットにおける安全なアクションのセットを推定し、第2フェーズはGP-UCB決定ルールに従う。
私たちの主な貢献は、この問題に対する最初のサブ線形後悔境界を導き出すことです。
我々はSGP-UCBを既存の安全なベイズGP最適化アルゴリズムと比較する。
関連論文リスト
- Safety in safe Bayesian optimization and its ramifications for control [6.450289319821615]
制御工学では、事前に設計されたコントローラのパラメータは、しばしば植物とのフィードバックでオンラインで調整される。
特に、この重要な問題、特にベイズ最適化(BO)のために機械学習手法が展開されている。
まず、SafeOpt型アルゴリズムは定量的不確実性境界に依存し、ほとんどの実装は理論上はサポートされていない。
リプシッツのみの安全ベイズ最適化(LoSBO)を提案する。
論文 参考訳(メタデータ) (2025-01-23T14:24:11Z) - On Safety in Safe Bayesian Optimization [5.9045432488022485]
本稿では,一般的なSafeOpt型アルゴリズムの安全性に関する3つの問題について検討する。
まず、これらのアルゴリズムはガウス過程(GP)回帰に対する頻繁な境界の不確実性に批判的に依存する。
第二に、ターゲット関数の再生カーネルヒルベルト空間(RKHS)ノルム上の上限を仮定する。
第3に、SafeOptと派生アルゴリズムは離散的な検索空間に依存しており、高次元問題に適用することは困難である。
論文 参考訳(メタデータ) (2024-03-19T17:50:32Z) - Truly No-Regret Learning in Constrained MDPs [61.78619476991494]
未知のCMDPで学習するモデルベース原始双対アルゴリズムを提案する。
提案アルゴリズムは,誤差のキャンセルを伴わずにサブ線形後悔を実現する。
論文 参考訳(メタデータ) (2024-02-24T09:47:46Z) - SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization [1.3597551064547502]
本研究では,新しい安全強化学習アルゴリズム,セーフティ・クリティカル・ポリシー・オプティマイゼーションを導入する。
本研究では,安全制約に違反して得られる報酬を無効化する機構である安全評論家を定義した。
理論的解析により,提案アルゴリズムは安全制約への付着と報酬の最大化との間のトレードオフを自動的にバランスできることが示された。
論文 参考訳(メタデータ) (2023-11-01T22:12:50Z) - On the Sublinear Regret of GP-UCB [58.25014663727544]
ガウス過程上信頼境界 (GP-UCB) アルゴリズムは, ほぼ最適の後悔率を有することを示す。
私たちの改善は、基盤となるカーネルの滑らかさに比例してカーネルリッジ推定を正規化するという、重要な技術的貢献に依存しています。
論文 参考訳(メタデータ) (2023-07-14T13:56:11Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Stochastic Conservative Contextual Linear Bandits [8.684768561839146]
不確実性の下での安全なリアルタイム意思決定の問題について検討する。
我々は、リアルタイム意思決定のための保守的な文脈的帯域幅の定式化を定式化する。
論文 参考訳(メタデータ) (2022-03-29T14:50:50Z) - Safe Online Bid Optimization with Return-On-Investment and Budget
Constraints subject to Uncertainty [87.81197574939355]
最適化問題と学習問題の両方について検討する。
我々は、潜在的に線形な数の制約違反を犠牲にして、サブ線形後悔を保証するアルゴリズム、すなわちGCBを提供する。
より興味深いことに、我々はGCB_safe(psi,phi)というアルゴリズムを提供し、サブ線形擬似回帰と安全性w.h.p.の両方を、耐性 psi と phi を受け入れるコストで保証する。
論文 参考訳(メタデータ) (2022-01-18T17:24:20Z) - Safe Online Convex Optimization with Unknown Linear Safety Constraints [0.0]
安全なオンライン凸最適化の問題について検討し、各ステップの動作は一連の線形安全制約を満たす必要がある。
線形安全性制約を指定するパラメータはアルゴリズムでは未知である。
安全なベースライン動作が可能であるという仮定の下で、SO-PGDアルゴリズムは、後悔する$O(T2/3)$を達成していることを示す。
論文 参考訳(メタデータ) (2021-11-14T19:49:19Z) - Bayesian decision-making under misspecified priors with applications to
meta-learning [64.38020203019013]
トンプソンサンプリングやその他のシーケンシャルな意思決定アルゴリズムは、文脈的包帯における探索と探索のトレードオフに取り組むための一般的なアプローチである。
性能は不特定な事前条件で優雅に低下することを示す。
論文 参考訳(メタデータ) (2021-07-03T23:17:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。