論文の概要: Bayesian Optimization with Formal Safety Guarantees via Online Conformal Prediction
- arxiv url: http://arxiv.org/abs/2306.17815v3
- Date: Thu, 4 Jul 2024 10:23:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 01:11:44.817655
- Title: Bayesian Optimization with Formal Safety Guarantees via Online Conformal Prediction
- Title(参考訳): オンライン等角予測によるホルマル安全保証によるベイズ最適化
- Authors: Yunchuan Zhang, Sangwoo Park, Osvaldo Simeone,
- Abstract要約: ブラックボックスゼロ階最適化は、金融、物理学、工学といった分野における応用において中心的な原始である。
本稿では,提案手法の安全性に関するフィードバックも提供するシナリオについて検討する。
制約関数の性質に関わらず、安全要件を満たす新しいBOベースのアプローチが導入された。
- 参考スコア(独自算出の注目度): 36.14499894307206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Black-box zero-th order optimization is a central primitive for applications in fields as diverse as finance, physics, and engineering. In a common formulation of this problem, a designer sequentially attempts candidate solutions, receiving noisy feedback on the value of each attempt from the system. In this paper, we study scenarios in which feedback is also provided on the safety of the attempted solution, and the optimizer is constrained to limit the number of unsafe solutions that are tried throughout the optimization process. Focusing on methods based on Bayesian optimization (BO), prior art has introduced an optimization scheme -- referred to as SAFEOPT -- that is guaranteed not to select any unsafe solution with a controllable probability over feedback noise as long as strict assumptions on the safety constraint function are met. In this paper, a novel BO-based approach is introduced that satisfies safety requirements irrespective of properties of the constraint function. This strong theoretical guarantee is obtained at the cost of allowing for an arbitrary, controllable but non-zero, rate of violation of the safety constraint. The proposed method, referred to as SAFE-BOCP, builds on online conformal prediction (CP) and is specialized to the cases in which feedback on the safety constraint is either noiseless or noisy. Experimental results on synthetic and real-world data validate the advantages and flexibility of the proposed SAFE-BOCP.
- Abstract(参考訳): ブラックボックスゼロ階最適化は、金融、物理学、工学といった分野における応用において中心的な原始である。
この問題の一般的な定式化において、設計者は、システムから各試行の値に対するノイズフィードバックを受けながら、順次、候補解を試行する。
本稿では,提案手法の安全性に関するフィードバックも提供するシナリオについて検討し,最適化プロセスを通じて試される安全でないソリューションの数を制限するために最適化器を制約する。
ベイズ最適化(BO)に基づく手法に着目した先行技術では、安全制約関数の厳密な仮定が満たされる限り、フィードバックノイズよりも制御可能な確率で安全でないソリューションを選択することが保証されるSAFEOPTと呼ばれる最適化スキームが導入された。
本稿では,制約関数の性質に関わらず,安全要件を満たす新しいBOベースのアプローチを提案する。
この強力な理論的保証は、任意で制御可能だがゼロでない安全制約の違反率を許容するコストで得られる。
提案手法は,SAFE-BOCPと呼ばれるオンラインコンフォーマル予測(CP)に基づいており,安全制約に対するフィードバックがノイズのない場合とノイズの多い場合に特化している。
合成および実世界のデータによる実験結果は,提案したSAFE-BOCPの利点と柔軟性を検証した。
関連論文リスト
- CMA-ES for Safe Optimization [9.130749109828717]
本研究は,効率的な進化アルゴリズムとしてCMA-ESに着目し,安全なCMA-ESと呼ばれる最適化手法を提案する。
安全なCMA-ESは、安全な最適化において安全性と効率の両方を達成するように設計されている。
論文 参考訳(メタデータ) (2024-05-17T04:24:56Z) - Information-Theoretic Safe Bayesian Optimization [59.758009422067005]
そこでは、未知の(安全でない)制約に反するパラメータを評価することなく、未知の関数を最適化することを目的としている。
現在のほとんどのメソッドはドメインの離散化に依存しており、連続ケースに直接拡張することはできない。
本稿では,GP後部を直接利用して,最も情報に富む安全なパラメータを識別する情報理論的安全な探索基準を提案する。
論文 参考訳(メタデータ) (2024-02-23T14:31:10Z) - SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization [1.3597551064547502]
本研究では,新しい安全強化学習アルゴリズム,セーフティ・クリティカル・ポリシー・オプティマイゼーションを導入する。
本研究では,安全制約に違反して得られる報酬を無効化する機構である安全評論家を定義した。
理論的解析により,提案アルゴリズムは安全制約への付着と報酬の最大化との間のトレードオフを自動的にバランスできることが示された。
論文 参考訳(メタデータ) (2023-11-01T22:12:50Z) - Iterative Reachability Estimation for Safe Reinforcement Learning [23.942701020636882]
安全制約付き強化学習(RL)環境のための新しいフレームワークRESPO(Reachability Estimation for Safe Policy Optimization)を提案する。
違反のないポリシーが存在する現実的な環境では、永続的な安全を維持しながら報酬を最適化します。
安全ガイム, PyBullet, および MuJoCo を用いた安全RL環境の多種多様な構成について, 提案手法の評価を行った。
論文 参考訳(メタデータ) (2023-09-24T02:36:42Z) - Meta-Learning Priors for Safe Bayesian Optimization [72.8349503901712]
メタ学習アルゴリズムであるF-PACOHを構築し,データ不足の設定において確実な定量化を実現する。
コアコントリビューションとして、安全に適合した事前をデータ駆動で選択するための新しいフレームワークを開発する。
ベンチマーク関数と高精度動作系において,我々のメタ学習先行が安全なBOアプローチの収束を加速することを示す。
論文 参考訳(メタデータ) (2022-10-03T08:38:38Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Gaussian Control Barrier Functions : A Non-Parametric Paradigm to Safety [7.921648699199647]
ガウス過程(GP)を用いたCBFのオンライン合成のための非パラメトリック手法を提案する。
GPは解析的トラクタビリティやロバストな不確実性推定などの非パラメトリック性に加えて、好ましい性質を持つ。
固定的かつ任意の安全な集合に対する安全な制御を実証することにより、クワッド上で実験により検証する。
論文 参考訳(メタデータ) (2022-03-29T12:21:28Z) - Pointwise Feasibility of Gaussian Process-based Safety-Critical Control
under Model Uncertainty [77.18483084440182]
制御バリア関数(CBF)と制御リアプノフ関数(CLF)は、制御システムの安全性と安定性をそれぞれ強化するための一般的なツールである。
本稿では, CBF と CLF を用いた安全クリティカルコントローラにおいて, モデル不確実性に対処するためのガウスプロセス(GP)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-13T23:08:49Z) - Chance Constrained Policy Optimization for Process Control and
Optimization [1.4908563154226955]
1) プラントモデルミスマッチ, 2) プロセス障害, 3) 安全な運転の制約が, 化学プロセスの最適化と制御に影響を及ぼす。
本研究では,確率の高い連立確率制約の満足度を保証できる確率制約付きポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-30T14:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。