論文の概要: Information-Theoretic Safe Exploration with Gaussian Processes
- arxiv url: http://arxiv.org/abs/2212.04914v1
- Date: Fri, 9 Dec 2022 15:23:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 15:47:25.447705
- Title: Information-Theoretic Safe Exploration with Gaussian Processes
- Title(参考訳): ガウス過程を用いた情報理論安全な探索
- Authors: Alessandro G. Bottero, Carlos E. Luis, Julia Vinogradska, Felix
Berkenkamp, Jan Peters
- Abstract要約: 未知の(安全でない)制約に反するパラメータを評価できないような、逐次的な意思決定タスクについて検討する。
現在のほとんどのメソッドはドメインの離散化に依存しており、連続ケースに直接拡張することはできない。
本稿では,GP後部を直接利用して,最も情報に富む安全なパラメータを識別する情報理論的安全な探索基準を提案する。
- 参考スコア(独自算出の注目度): 89.31922008981735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a sequential decision making task where we are not allowed to
evaluate parameters that violate an a priori unknown (safety) constraint. A
common approach is to place a Gaussian process prior on the unknown constraint
and allow evaluations only in regions that are safe with high probability. Most
current methods rely on a discretization of the domain and cannot be directly
extended to the continuous case. Moreover, the way in which they exploit
regularity assumptions about the constraint introduces an additional critical
hyperparameter. In this paper, we propose an information-theoretic safe
exploration criterion that directly exploits the GP posterior to identify the
most informative safe parameters to evaluate. Our approach is naturally
applicable to continuous domains and does not require additional
hyperparameters. We theoretically analyze the method and show that we do not
violate the safety constraint with high probability and that we explore by
learning about the constraint up to arbitrary precision. Empirical evaluations
demonstrate improved data-efficiency and scalability.
- Abstract(参考訳): 我々は,未知の(安全でない)制約に違反するパラメータを評価できないような逐次的意思決定タスクを考える。
一般的なアプローチは、未知の制約に先立ってガウス過程を配置し、高い確率で安全な領域にのみ評価を行うことである。
現在のほとんどのメソッドはドメインの離散化に依存しており、連続ケースに直接拡張することはできない。
さらに、制約に関する規則性仮定を利用する方法は、追加の臨界ハイパーパラメータをもたらす。
本稿では,GP後部を直接利用して,最も情報に富む安全なパラメータを識別する情報理論的安全な探索基準を提案する。
我々のアプローチは自然に連続領域に適用でき、追加のハイパーパラメータを必要としない。
提案手法を理論的に解析し,安全性制約に高い確率で違反しないことを示すとともに,任意の精度で制約を学習することで検討する。
実証的な評価により、データ効率とスケーラビリティが向上した。
関連論文リスト
- Information-Theoretic Safe Bayesian Optimization [59.758009422067005]
そこでは、未知の(安全でない)制約に反するパラメータを評価することなく、未知の関数を最適化することを目的としている。
現在のほとんどのメソッドはドメインの離散化に依存しており、連続ケースに直接拡張することはできない。
本稿では,GP後部を直接利用して,最も情報に富む安全なパラメータを識別する情報理論的安全な探索基準を提案する。
論文 参考訳(メタデータ) (2024-02-23T14:31:10Z) - Online Constraint Tightening in Stochastic Model Predictive Control: A
Regression Approach [49.056933332667114]
確率制約付き最適制御問題に対する解析解は存在しない。
制御中の制約強調パラメータをオンラインで学習するためのデータ駆動型アプローチを提案する。
提案手法は, 確率制約を厳密に満たす制約強調パラメータを導出する。
論文 参考訳(メタデータ) (2023-10-04T16:22:02Z) - Kernel Conditional Moment Constraints for Confounding Robust Inference [22.816690686310714]
本研究では,非保守的共同設立者を対象に,オフラインの文脈的盗賊の政策評価について検討した。
政策値のシャープな下限を提供する一般推定器を提案する。
論文 参考訳(メタデータ) (2023-02-26T16:44:13Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Robustness Guarantees for Credal Bayesian Networks via Constraint
Relaxation over Probabilistic Circuits [16.997060715857987]
本研究では,決定関数のロバスト性を,断続ベイズ的ネットワークに対して定量化する手法を開発した。
回路サイズにおいて線形時間で MARmax 上の保証上限を得る方法を示す。
論文 参考訳(メタデータ) (2022-05-11T22:37:07Z) - Gaussian Process Uniform Error Bounds with Unknown Hyperparameters for
Safety-Critical Applications [71.23286211775084]
未知のハイパーパラメータを持つ設定において、ロバストなガウス過程の均一なエラー境界を導入する。
提案手法はハイパーパラメータの空間における信頼領域を計算し,モデル誤差に対する確率的上限を求める。
実験により、バニラ法やベイズ法よりもバニラ法の方がはるかに優れていることが示された。
論文 参考訳(メタデータ) (2021-09-06T17:10:01Z) - Learning Probabilistic Ordinal Embeddings for Uncertainty-Aware
Regression [91.3373131262391]
不確かさが唯一の確実性である。
伝統的に、直接回帰定式化を考慮し、ある確率分布の族に出力空間を変更することによって不確実性をモデル化する。
現在のレグレッション技術における不確実性をモデル化する方法は、未解決の問題である。
論文 参考訳(メタデータ) (2021-03-25T06:56:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。