論文の概要: Safe exploration in reproducing kernel Hilbert spaces
- arxiv url: http://arxiv.org/abs/2503.10352v1
- Date: Thu, 13 Mar 2025 13:28:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:50:41.895678
- Title: Safe exploration in reproducing kernel Hilbert spaces
- Title(参考訳): 再生核ヒルベルト空間における安全な探索
- Authors: Abdullah Tokmak, Kiran G. Krishnan, Thomas B. Schön, Dominik Baumann,
- Abstract要約: データからRKHS基準を推定できる安全なBOアルゴリズムを提案する。
物理シミュレータや実逆振り子上での強化学習ポリシーを安全に最適化するために,本アルゴリズムを適用した。
- 参考スコア(独自算出の注目度): 9.600218079563291
- License:
- Abstract: Popular safe Bayesian optimization (BO) algorithms learn control policies for safety-critical systems in unknown environments. However, most algorithms make a smoothness assumption, which is encoded by a known bounded norm in a reproducing kernel Hilbert space (RKHS). The RKHS is a potentially infinite-dimensional space, and it remains unclear how to reliably obtain the RKHS norm of an unknown function. In this work, we propose a safe BO algorithm capable of estimating the RKHS norm from data. We provide statistical guarantees on the RKHS norm estimation, integrate the estimated RKHS norm into existing confidence intervals and show that we retain theoretical guarantees, and prove safety of the resulting safe BO algorithm. We apply our algorithm to safely optimize reinforcement learning policies on physics simulators and on a real inverted pendulum, demonstrating improved performance, safety, and scalability compared to the state-of-the-art.
- Abstract(参考訳): 一般的な安全なベイズ最適化(BO)アルゴリズムは、未知の環境で安全クリティカルなシステムの制御ポリシーを学ぶ。
しかし、ほとんどのアルゴリズムは滑らかさを仮定し、これは再生カーネルヒルベルト空間(RKHS)において既知の有界ノルムによって符号化される。
RKHS は潜在的に無限次元空間であり、未知函数の RKHS ノルムを確実に取得する方法は不明である。
本研究では,データからRKHS基準を推定できる安全なBOアルゴリズムを提案する。
我々は、RKHSノルム推定の統計的保証を提供し、推定されたRKHSノルムを既存の信頼区間に統合し、理論的保証を維持し、結果の安全なBOアルゴリズムの安全性を証明する。
本研究では,物理シミュレータや実逆振り子上での強化学習ポリシーを安全に最適化し,現状と比較して性能,安全性,スケーラビリティの向上を実証する。
関連論文リスト
- PACSBO: Probably approximately correct safe Bayesian optimization [10.487548576958421]
データから未知関数のRKHSノルムの上界を推定するアルゴリズムを提案する。
我々は、RKHS規範をグローバルオブジェクトではなくローカルオブジェクトとして扱い、保守主義を減少させる。
RKHSノルム推定とRKHSノルムの局所解釈を安全なBOアルゴリズムに統合するとPACSBOが得られる。
論文 参考訳(メタデータ) (2024-09-02T10:50:34Z) - On Safety in Safe Bayesian Optimization [5.9045432488022485]
本稿では,一般的なSafeOpt型アルゴリズムの安全性に関する3つの問題について検討する。
まず、これらのアルゴリズムはガウス過程(GP)回帰に対する頻繁な境界の不確実性に批判的に依存する。
第二に、ターゲット関数の再生カーネルヒルベルト空間(RKHS)ノルム上の上限を仮定する。
第3に、SafeOptと派生アルゴリズムは離散的な検索空間に依存しており、高次元問題に適用することは困難である。
論文 参考訳(メタデータ) (2024-03-19T17:50:32Z) - Leveraging Approximate Model-based Shielding for Probabilistic Safety
Guarantees in Continuous Environments [63.053364805943026]
近似モデルベースの遮蔽フレームワークを連続的な設定に拡張する。
特に、テストベッドとしてSafety Gymを使用し、一般的な制約付きRLアルゴリズムとABBSのより直接的な比較を可能にします。
論文 参考訳(メタデータ) (2024-02-01T17:55:08Z) - Safe Exploration in Reinforcement Learning: A Generalized Formulation
and Algorithms [8.789204441461678]
本稿では,安全な探査のためのメタアルゴリズムであるMASEの形で,安全な探査(GSE)問題の解を提案する。
提案アルゴリズムは,グリッドワールドおよびセーフティガイムベンチマークにおける最先端アルゴリズムよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-10-05T00:47:09Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Meta-Learning Hypothesis Spaces for Sequential Decision-making [79.73213540203389]
オフラインデータ(Meta-KeL)からカーネルをメタ学習することを提案する。
穏やかな条件下では、推定されたRKHSが有効な信頼セットを得られることを保証します。
また,ベイズ最適化におけるアプローチの有効性を実証的に評価した。
論文 参考訳(メタデータ) (2022-02-01T17:46:51Z) - Safe Policy Optimization with Local Generalized Linear Function
Approximations [17.84511819022308]
既存の安全探査法は、規則性の前提で安全を保証した。
本研究では,センサによって得られる局所的特徴と環境報酬・安全との関係を学習しながら,エージェントのポリシーを最適化する新しいアルゴリズムであるSPO-LFを提案する。
提案アルゴリズムは,1) サンプルの複雑さと計算コストの点で効率が良く,2) 理論的保証のある従来の安全RL法よりも大規模な問題に適用可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T00:47:50Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z) - Representation of Reinforcement Learning Policies in Reproducing Kernel
Hilbert Spaces [72.5149277196468]
このフレームワークは、カーネルヒルベルト空間(RKHS)上のポリシーの低次元埋め込みを見つけることを含む。
我々は、再建された政策の復活を期待して、強い理論的保証を得る。
その結果、低次元空間にロバストに埋め込むことができる一方で、組込みポリシはリターンの低下をほとんど起こさないことを確認した。
論文 参考訳(メタデータ) (2020-02-07T15:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。