論文の概要: Efficiently Computable Safety Bounds for Gaussian Processes in Active Learning
- arxiv url: http://arxiv.org/abs/2402.18260v2
- Date: Mon, 15 Apr 2024 15:40:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 22:46:16.388403
- Title: Efficiently Computable Safety Bounds for Gaussian Processes in Active Learning
- Title(参考訳): 能動学習におけるガウス過程の効率よく計算可能な安全性境界
- Authors: Jörn Tebbe, Christoph Zimmer, Ansgar Steland, Markus Lange-Hegermann, Fabian Mies,
- Abstract要約: 多くの技術応用において、設計空間は連続的な軌跡を通して探索され、その上で安全性を評価する必要がある。
これはGP法における厳格な安全性要件に対して特に困難である。
本稿では,後GPの上限値の適応的なサンプル化中央値に基づいて,証明可能な安全性境界を提供することにより,これらの課題に対処する。
- 参考スコア(独自算出の注目度): 6.217857116096573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Active learning of physical systems must commonly respect practical safety constraints, which restricts the exploration of the design space. Gaussian Processes (GPs) and their calibrated uncertainty estimations are widely used for this purpose. In many technical applications the design space is explored via continuous trajectories, along which the safety needs to be assessed. This is particularly challenging for strict safety requirements in GP methods, as it employs computationally expensive Monte-Carlo sampling of high quantiles. We address these challenges by providing provable safety bounds based on the adaptively sampled median of the supremum of the posterior GP. Our method significantly reduces the number of samples required for estimating high safety probabilities, resulting in faster evaluation without sacrificing accuracy and exploration speed. The effectiveness of our safe active learning approach is demonstrated through extensive simulations and validated using a real-world engine example.
- Abstract(参考訳): 物理的システムのアクティブラーニングは、設計空間の探索を制限する実用的な安全制約を一般的に尊重しなければならない。
ガウス過程(GP)とその校正不確実性推定はこの目的のために広く利用されている。
多くの技術応用において、設計空間は連続的な軌跡を通して探索され、その上で安全性を評価する必要がある。
これはGP法における厳格な安全性要件に対して特に困難である。
本稿では,後GPの上限値の適応的なサンプル化中央値に基づいて,証明可能な安全性境界を提供することにより,これらの課題に対処する。
提案手法は, 高安全性確率推定に必要な試料数を著しく削減し, 精度と探索速度を犠牲にすることなく, より高速な評価を実現する。
安全な能動学習手法の有効性をシミュレーションにより実証し,実世界の実例を用いて検証した。
関連論文リスト
- Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Efficient falsification approach for autonomous vehicle validation using
a parameter optimisation technique based on reinforcement learning [6.198523595657983]
自律走行車(AV)の大規模展開は、まだ解決されていない多くの安全上の課題にもかかわらず、差し迫っているように見える。
交通参加者とダイナミックワールドの行動の不確実性は、先進的な自律システムにおいて反応を引き起こす。
本稿では,システム・アンダー・テストを評価するための効率的なファルシフィケーション手法を提案する。
論文 参考訳(メタデータ) (2020-11-16T02:56:13Z) - Evaluating the Safety of Deep Reinforcement Learning Models using
Semi-Formal Verification [81.32981236437395]
本稿では,区間分析に基づく半形式的意思決定手法を提案する。
本手法は, 標準ベンチマークに比較して, 形式検証に対して比較結果を得る。
提案手法は, 意思決定モデルにおける安全性特性を効果的に評価することを可能にする。
論文 参考訳(メタデータ) (2020-10-19T11:18:06Z) - Provably Safe PAC-MDP Exploration Using Analogies [87.41775218021044]
安全クリティカルドメインに強化学習を適用する上での課題は、探索と安全性のバランスをとる方法を理解することだ。
我々は,未知のダイナミックスを持つMDPにおいて,確実に安全な探索を行うアルゴリズムであるAnalogous Safe-State Exploration (ASE)を提案する。
提案手法は, PAC-MDP 感覚の準最適政策を安全に学習するために, 状態-作用対間の類似性を利用する。
論文 参考訳(メタデータ) (2020-07-07T15:50:50Z) - Probabilistic Guarantees for Safe Deep Reinforcement Learning [6.85316573653194]
深層強化学習は多くの制御タスクにうまく適用されているが、安全上の懸念から、そのようなエージェントの安全クリティカルなシナリオへの応用は制限されている。
そこで我々は, 深層強化学習エージェントの安全性を評価するアルゴリズムMOSAICを提案する。
論文 参考訳(メタデータ) (2020-05-14T15:42:19Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z) - Efficient statistical validation with edge cases to evaluate Highly
Automated Vehicles [6.198523595657983]
自動運転車の大規模展開は、まだ解決されていない多くの安全上の課題にもかかわらず、差し迫っているようだ。
既存の標準は、検証が要求をカバーするテストケースのセットだけを必要とする決定論的プロセスに焦点を当てています。
本稿では, 自動生成テストケースを最悪のシナリオに偏り付け, システムの挙動の統計的特性を計算するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-04T04:35:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。