Fugu-MT 論文翻訳(概要): PACSBO: Probably approximately correct safe Bayesian optimization

論文の概要: PACSBO: Probably approximately correct safe Bayesian optimization

arxiv url: http://arxiv.org/abs/2409.01163v1
Date: Mon, 2 Sep 2024 10:50:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 07:01:54.953711
Title: PACSBO: Probably approximately correct safe Bayesian optimization
Title（参考訳）: PACSBO: おそらくほぼ正しいベイズ最適化
Authors: Abdullah Tokmak, Thomas B. Schön, Dominik Baumann,
Abstract要約: データから未知関数のRKHSノルムの上界を推定するアルゴリズムを提案する。我々は、RKHS規範をグローバルオブジェクトではなくローカルオブジェクトとして扱い、保守主義を減少させる。 RKHSノルム推定とRKHSノルムの局所解釈を安全なBOアルゴリズムに統合するとPACSBOが得られる。
参考スコア（独自算出の注目度）: 10.487548576958421
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Safe Bayesian optimization (BO) algorithms promise to find optimal control policies without knowing the system dynamics while at the same time guaranteeing safety with high probability. In exchange for those guarantees, popular algorithms require a smoothness assumption: a known upper bound on a norm in a reproducing kernel Hilbert space (RKHS). The RKHS is a potentially infinite-dimensional space, and it is unclear how to, in practice, obtain an upper bound of an unknown function in its corresponding RKHS. In response, we propose an algorithm that estimates an upper bound on the RKHS norm of an unknown function from data and investigate its theoretical properties. Moreover, akin to Lipschitz-based methods, we treat the RKHS norm as a local rather than a global object, and thus reduce conservatism. Integrating the RKHS norm estimation and the local interpretation of the RKHS norm into a safe BO algorithm yields PACSBO, an algorithm for probably approximately correct safe Bayesian optimization, for which we provide numerical and hardware experiments that demonstrate its applicability and benefits over popular safe BO algorithms.
Abstract（参考訳）: 安全なベイズ最適化(BO)アルゴリズムは、システムのダイナミクスを知らずに最適な制御ポリシーを見つけることを約束すると同時に、高い確率で安全性を保証する。これらの保証と引き換えに、一般的なアルゴリズムは滑らかな仮定を必要とする:再生カーネルヒルベルト空間(RKHS)のノルム上の既知の上限。 RKHS は潜在的に無限次元空間であり、実際、その対応する RKHS において未知函数の上界を得る方法は不明である。そこで本研究では,データから未知関数のRKHSノルムの上界を推定し,その理論的性質について検討するアルゴリズムを提案する。さらに、リプシッツに基づく手法と同様に、RKHSノルムをグローバルな対象ではなく局所的な対象として扱い、保守主義を減少させる。 RKHSノルム推定とRKHSノルムの局所解釈を安全なBOアルゴリズムに統合すると、ほぼ正しいベイズ最適化のためのアルゴリズムPACSBOが得られる。

関連論文リスト

Safe Bayesian optimization across noise models via scenario programming [11.66003972374653]
本稿では,準ガウス分布やヘテロ代用重み付き分布を含む,ノイズモデル間の安全BOの簡易かつ厳密なアプローチを提案する。我々は,アルゴリズムを合成例に展開し,シミュレーションにおいてFranka Emikaマニピュレータのコントローラをチューニングする。
論文参考訳（メタデータ） (2025-12-12T14:08:46Z)
Safe exploration in reproducing kernel Hilbert spaces [9.600218079563291]
データからRKHS基準を推定できる安全なBOアルゴリズムを提案する。物理シミュレータや実逆振り子上での強化学習ポリシーを安全に最適化するために,本アルゴリズムを適用した。
論文参考訳（メタデータ） (2025-03-13T13:28:54Z)
Safety in safe Bayesian optimization and its ramifications for control [6.450289319821615]
制御工学では、事前に設計されたコントローラのパラメータは、しばしば植物とのフィードバックでオンラインで調整される。特に、この重要な問題、特にベイズ最適化(BO)のために機械学習手法が展開されている。まず、SafeOpt型アルゴリズムは定量的不確実性境界に依存し、ほとんどの実装は理論上はサポートされていない。リプシッツのみの安全ベイズ最適化(LoSBO)を提案する。
論文参考訳（メタデータ） (2025-01-23T14:24:11Z)
On Safety in Safe Bayesian Optimization [5.9045432488022485]
本稿では,一般的なSafeOpt型アルゴリズムの安全性に関する3つの問題について検討する。まず、これらのアルゴリズムはガウス過程(GP)回帰に対する頻繁な境界の不確実性に批判的に依存する。第二に、ターゲット関数の再生カーネルヒルベルト空間(RKHS)ノルム上の上限を仮定する。第3に、SafeOptと派生アルゴリズムは離散的な検索空間に依存しており、高次元問題に適用することは困難である。
論文参考訳（メタデータ） (2024-03-19T17:50:32Z)
Information-Theoretic Safe Bayesian Optimization [59.758009422067005]
そこでは、未知の(安全でない)制約に反するパラメータを評価することなく、未知の関数を最適化することを目的としている。現在のほとんどのメソッドはドメインの離散化に依存しており、連続ケースに直接拡張することはできない。本稿では,GP後部を直接利用して,最も情報に富む安全なパラメータを識別する情報理論的安全な探索基準を提案する。
論文参考訳（メタデータ） (2024-02-23T14:31:10Z)
Bayesian Optimization with Formal Safety Guarantees via Online Conformal Prediction [36.14499894307206]
ブラックボックスゼロ階最適化は、金融、物理学、工学といった分野における応用において中心的な原始である。本稿では,提案手法の安全性に関するフィードバックも提供するシナリオについて検討する。制約関数の性質に関わらず、安全要件を満たす新しいBOベースのアプローチが導入された。
論文参考訳（メタデータ） (2023-06-30T17:26:49Z)
Regret Bounds for Expected Improvement Algorithms in Gaussian Process Bandit Optimization [63.8557841188626]
期待されている改善(EI)アルゴリズムは、不確実性の下で最適化するための最も一般的な戦略の1つである。本稿では,GP予測平均を通した標準既存値を持つEIの変種を提案する。我々のアルゴリズムは収束し、$mathcal O(gamma_TsqrtT)$の累積後悔境界を達成することを示す。
論文参考訳（メタデータ） (2022-03-15T13:17:53Z)
Meta-Learning Hypothesis Spaces for Sequential Decision-making [79.73213540203389]
オフラインデータ(Meta-KeL)からカーネルをメタ学習することを提案する。穏やかな条件下では、推定されたRKHSが有効な信頼セットを得られることを保証します。また,ベイズ最適化におけるアプローチの有効性を実証的に評価した。
論文参考訳（メタデータ） (2022-02-01T17:46:51Z)
Misspecified Gaussian Process Bandit Optimization [59.30399661155574]
カーネル化されたバンディットアルゴリズムは、この問題に対して強い経験的および理論的性能を示した。本稿では、未知関数を$epsilon$-一様近似で近似できるエンフェミス特定カーネル化帯域設定を、ある再生カーネルヒルベルト空間(RKHS)において有界ノルムを持つ関数で導入する。提案アルゴリズムは,不特定性に関する事前知識を伴わず,$epsilon$への最適依存を実現する。
論文参考訳（メタデータ） (2021-11-09T09:00:02Z)
Safe Policy Optimization with Local Generalized Linear Function Approximations [17.84511819022308]
既存の安全探査法は、規則性の前提で安全を保証した。本研究では,センサによって得られる局所的特徴と環境報酬・安全との関係を学習しながら,エージェントのポリシーを最適化する新しいアルゴリズムであるSPO-LFを提案する。提案アルゴリズムは,1) サンプルの複雑さと計算コストの点で効率が良く,2) 理論的保証のある従来の安全RL法よりも大規模な問題に適用可能であることを示す。
論文参考訳（メタデータ） (2021-11-09T00:47:50Z)
Sub-linear Regret Bounds for Bayesian Optimisation in Unknown Search Spaces [63.22864716473051]
本稿では,反復により探索空間を拡大(およびシフト)する新しいBOアルゴリズムを提案する。理論的には、どちらのアルゴリズムにおいても、累積的後悔は線形以下の速度で増大する。
論文参考訳（メタデータ） (2020-09-05T14:24:40Z)
Corruption-Tolerant Gaussian Process Bandit Optimization [130.60115798580136]
未知(典型的には非生成)関数を有界ノルムで最適化する問題を考察する。我々は「高速だが非ローバスト」と「スロー」に基づく高速スローGP-UCBに基づくアルゴリズムを提案する。ある種の依存関係は、汚職レベルによっては要求できない、と我々は主張する。
論文参考訳（メタデータ） (2020-03-04T09:46:58Z)
Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-03-01T17:47:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。