Fugu-MT 論文翻訳(概要): On Safety in Safe Bayesian Optimization

論文の概要: On Safety in Safe Bayesian Optimization

arxiv url: http://arxiv.org/abs/2403.12948v1
Date: Tue, 19 Mar 2024 17:50:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 13:04:26.690012
Title: On Safety in Safe Bayesian Optimization
Title（参考訳）: 安全ベイズ最適化の安全性について
Authors: Christian Fiedler, Johanna Menn, Lukas Kreisköther, Sebastian Trimpe,
Abstract要約: 本稿では,一般的なSafeOpt型アルゴリズムの安全性に関する3つの問題について検討する。まず、これらのアルゴリズムはガウス過程(GP)回帰に対する頻繁な境界の不確実性に批判的に依存する。第二に、ターゲット関数の再生カーネルヒルベルト空間(RKHS)ノルム上の上限を仮定する。第3に、SafeOptと派生アルゴリズムは離散的な検索空間に依存しており、高次元問題に適用することは困難である。
参考スコア（独自算出の注目度）: 5.9045432488022485
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Optimizing an unknown function under safety constraints is a central task in robotics, biomedical engineering, and many other disciplines, and increasingly safe Bayesian Optimization (BO) is used for this. Due to the safety critical nature of these applications, it is of utmost importance that theoretical safety guarantees for these algorithms translate into the real world. In this work, we investigate three safety-related issues of the popular class of SafeOpt-type algorithms. First, these algorithms critically rely on frequentist uncertainty bounds for Gaussian Process (GP) regression, but concrete implementations typically utilize heuristics that invalidate all safety guarantees. We provide a detailed analysis of this problem and introduce Real-\b{eta}-SafeOpt, a variant of the SafeOpt algorithm that leverages recent GP bounds and thus retains all theoretical guarantees. Second, we identify assuming an upper bound on the reproducing kernel Hilbert space (RKHS) norm of the target function, a key technical assumption in SafeOpt-like algorithms, as a central obstacle to real-world usage. To overcome this challenge, we introduce the Lipschitz-only Safe Bayesian Optimization (LoSBO) algorithm, which guarantees safety without an assumption on the RKHS bound, and empirically show that this algorithm is not only safe, but also exhibits superior performance compared to the state-of-the-art on several function classes. Third, SafeOpt and derived algorithms rely on a discrete search space, making them difficult to apply to higher-dimensional problems. To widen the applicability of these algorithms, we introduce Lipschitz-only GP-UCB (LoS-GP-UCB), a variant of LoSBO applicable to moderately high-dimensional problems, while retaining safety.
Abstract（参考訳）: 安全制約下での未知の機能の最適化は、ロボット工学、バイオメディカルエンジニアリング、その他多くの分野において中心的な課題であり、より安全なベイズ最適化(BO)が用いられる。これらの応用の安全性クリティカルな性質のため、これらのアルゴリズムの理論的安全性保証が現実世界に変換されることが最も重要である。本研究では,一般的なSafeOpt型アルゴリズムの安全性に関する3つの問題について検討する。第一に、これらのアルゴリズムはガウス過程(GP)回帰に対する頻繁な不確実性境界に依存しているが、具体的な実装は通常、すべての安全保証を無効にするヒューリスティックを利用する。本稿では,この問題を詳細に解析し,最近のGP境界を利用したSafeOptアルゴリズムの変種であるReal-\b{eta}-SafeOptを導入する。第二に、ターゲット関数の再生カーネルヒルベルト空間(RKHS)ノルム上の上限を仮定することは、SafeOptのようなアルゴリズムにおける重要な技術的仮定である。この課題を克服するために、RKHS境界に仮定せずに安全性を保証するLipschitz-only Safe Bayesian Optimization (LoSBO)アルゴリズムを導入し、このアルゴリズムが安全であるだけでなく、いくつかの関数クラスの最先端よりも優れた性能を示すことを実証的に示す。第3に、SafeOptと派生アルゴリズムは離散的な検索空間に依存しており、高次元問題に適用することは困難である。これらのアルゴリズムの適用性を広げるために,Lipschitz のみの GP-UCB (LoS-GP-UCB) を導入する。

関連論文リスト

Safety in safe Bayesian optimization and its ramifications for control [6.450289319821615]
制御工学では、事前に設計されたコントローラのパラメータは、しばしば植物とのフィードバックでオンラインで調整される。特に、この重要な問題、特にベイズ最適化(BO)のために機械学習手法が展開されている。まず、SafeOpt型アルゴリズムは定量的不確実性境界に依存し、ほとんどの実装は理論上はサポートされていない。リプシッツのみの安全ベイズ最適化(LoSBO)を提案する。
論文参考訳（メタデータ） (2025-01-23T14:24:11Z)
PACSBO: Probably approximately correct safe Bayesian optimization [10.487548576958421]
データから未知関数のRKHSノルムの上界を推定するアルゴリズムを提案する。我々は、RKHS規範をグローバルオブジェクトではなくローカルオブジェクトとして扱い、保守主義を減少させる。 RKHSノルム推定とRKHSノルムの局所解釈を安全なBOアルゴリズムに統合するとPACSBOが得られる。
論文参考訳（メタデータ） (2024-09-02T10:50:34Z)
Information-Theoretic Safe Bayesian Optimization [59.758009422067005]
そこでは、未知の(安全でない)制約に反するパラメータを評価することなく、未知の関数を最適化することを目的としている。現在のほとんどのメソッドはドメインの離散化に依存しており、連続ケースに直接拡張することはできない。本稿では,GP後部を直接利用して,最も情報に富む安全なパラメータを識別する情報理論的安全な探索基準を提案する。
論文参考訳（メタデータ） (2024-02-23T14:31:10Z)
SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization [1.3597551064547502]
本研究では,新しい安全強化学習アルゴリズム,セーフティ・クリティカル・ポリシー・オプティマイゼーションを導入する。本研究では,安全制約に違反して得られる報酬を無効化する機構である安全評論家を定義した。理論的解析により,提案アルゴリズムは安全制約への付着と報酬の最大化との間のトレードオフを自動的にバランスできることが示された。
論文参考訳（メタデータ） (2023-11-01T22:12:50Z)
Safe Exploration in Reinforcement Learning: A Generalized Formulation and Algorithms [8.789204441461678]
本稿では,安全な探査のためのメタアルゴリズムであるMASEの形で,安全な探査(GSE)問題の解を提案する。提案アルゴリズムは,グリッドワールドおよびセーフティガイムベンチマークにおける最先端アルゴリズムよりも優れた性能を実現する。
論文参考訳（メタデータ） (2023-10-05T00:47:09Z)
Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文参考訳（メタデータ） (2023-07-27T15:19:45Z)
Evaluating Model-free Reinforcement Learning toward Safety-critical Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文参考訳（メタデータ） (2022-12-12T06:30:17Z)
Benefits of Monotonicity in Safe Exploration with Gaussian Processes [50.71125084216603]
動作の集合上で未知の関数を逐次最大化する問題を考察する。 M-SafeUCBは、安全性、適切に定義された後悔の念、安全境界全体の発見という理論的な保証を享受していることを示す。
論文参考訳（メタデータ） (2022-11-03T02:52:30Z)
Log Barriers for Safe Black-box Optimization with Application to Safe Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。 LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文参考訳（メタデータ） (2022-07-21T11:14:47Z)
Safe Online Bid Optimization with Return-On-Investment and Budget Constraints subject to Uncertainty [87.81197574939355]
最適化問題と学習問題の両方について検討する。我々は、潜在的に線形な数の制約違反を犠牲にして、サブ線形後悔を保証するアルゴリズム、すなわちGCBを提供する。より興味深いことに、我々はGCB_safe(psi,phi)というアルゴリズムを提供し、サブ線形擬似回帰と安全性w.h.p.の両方を、耐性 psi と phi を受け入れるコストで保証する。
論文参考訳（メタデータ） (2022-01-18T17:24:20Z)
Safe Policy Optimization with Local Generalized Linear Function Approximations [17.84511819022308]
既存の安全探査法は、規則性の前提で安全を保証した。本研究では,センサによって得られる局所的特徴と環境報酬・安全との関係を学習しながら,エージェントのポリシーを最適化する新しいアルゴリズムであるSPO-LFを提案する。提案アルゴリズムは,1) サンプルの複雑さと計算コストの点で効率が良く,2) 理論的保証のある従来の安全RL法よりも大規模な問題に適用可能であることを示す。
論文参考訳（メタデータ） (2021-11-09T00:47:50Z)
Regret Bounds for Safe Gaussian Process Bandit Optimization [42.336882999112845]
安全クリティカルなシステムでは、学習者の行動が学習プロセスのどの段階においても安全上の制約に違反しないことが最重要である。我々は,SGP-UCBと呼ばれるGP-UCBの安全版を開発し,各ラウンドの安全制約を尊重するために必要な修正を行った。
論文参考訳（メタデータ） (2020-05-05T03:54:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。