論文の概要: Adaptive Real Time Exploration and Optimization for Safety-Critical
Systems
- arxiv url: http://arxiv.org/abs/2211.05495v1
- Date: Thu, 10 Nov 2022 11:37:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 14:40:04.034646
- Title: Adaptive Real Time Exploration and Optimization for Safety-Critical
Systems
- Title(参考訳): 安全臨界系の適応的リアルタイム探索と最適化
- Authors: Buse Sibel Korkmaz (1), Mehmet Mercang\"oz (1), Marta Zag\'orowska (2)
((1) Imperial College London, (2) ETH Z\"urich)
- Abstract要約: 安全制約を考慮したプログラミング問題として,マルチアームバンディットを用いたARTEOアルゴリズムを提案する。
最適化入力の変化と探索を通して環境特性を学習する。
既存のセーフラーニング手法と比較して、我々のアルゴリズムは排他的な探索フェーズを必要とせず、探索点においても最適化目標に従う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We consider the problem of decision-making under uncertainty in an
environment with safety constraints. Many business and industrial applications
rely on real-time optimization with changing inputs to improve key performance
indicators. In the case of unknown environmental characteristics, real-time
optimization becomes challenging, particularly for the satisfaction of safety
constraints. We propose the ARTEO algorithm, where we cast multi-armed bandits
as a mathematical programming problem subject to safety constraints and learn
the environmental characteristics through changes in optimization inputs and
through exploration. We quantify the uncertainty in unknown characteristics by
using Gaussian processes and incorporate it into the utility function as a
contribution which drives exploration. We adaptively control the size of this
contribution using a heuristic in accordance with the requirements of the
environment. We guarantee the safety of our algorithm with a high probability
through confidence bounds constructed under the regularity assumptions of
Gaussian processes. Compared to existing safe-learning approaches, our
algorithm does not require an exclusive exploration phase and follows the
optimization goals even in the explored points, which makes it suitable for
safety-critical systems. We demonstrate the safety and efficiency of our
approach with two experiments: an industrial process and an online bid
optimization benchmark problem.
- Abstract(参考訳): 安全制約のある環境における不確実性下での意思決定の問題を考える。
多くのビジネスおよび産業アプリケーションは、重要なパフォーマンス指標を改善するために入力を変更するリアルタイム最適化に依存している。
環境特性が不明な場合には,特に安全制約の満足度においてリアルタイム最適化が困難となる。
安全制約を考慮した数学的プログラミング問題としてマルチアームバンディットをキャストし,最適化入力の変化や探索を通じて環境特性を学習するARTEOアルゴリズムを提案する。
ガウス過程を用いて未知の特性の不確かさを定量化し,探索を促進する寄与としてユーティリティ関数に組み込む。
我々は,環境の要求に応じてヒューリスティックを用いて,この貢献の大きさを適応的に制御する。
ガウス過程の正則性仮定に基づいて構築された信頼境界による確率の高いアルゴリズムの安全性を保証する。
既存の安全学習手法と比較して,本アルゴリズムは排他的な探索フェーズを必要とせず,探索点においても最適化目標に従うため,安全クリティカルなシステムに適している。
本手法の安全性と効率を,産業プロセスとオンライン入札最適化ベンチマーク問題という2つの実験で実証する。
関連論文リスト
- Safe Time-Varying Optimization based on Gaussian Processes with Spatio-Temporal Kernel [4.586346034304039]
TVSafeOptは、未知の報酬と安全機能を持つ時間変化最適化問題のアルゴリズムである。
TVSafeOptは、明示的な変更検出を必要とせずに、時間変化のある安全な領域を安全に追跡することができる。
その結果,TVSafeOptは,安全と最適性の両方に関して,合成データ上でSafeOptと良好に比較できることがわかった。
論文 参考訳(メタデータ) (2024-09-26T16:09:19Z) - Information-Theoretic Safe Bayesian Optimization [59.758009422067005]
そこでは、未知の(安全でない)制約に反するパラメータを評価することなく、未知の関数を最適化することを目的としている。
現在のほとんどのメソッドはドメインの離散化に依存しており、連続ケースに直接拡張することはできない。
本稿では,GP後部を直接利用して,最も情報に富む安全なパラメータを識別する情報理論的安全な探索基準を提案する。
論文 参考訳(メタデータ) (2024-02-23T14:31:10Z) - SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization [1.3597551064547502]
本研究では,新しい安全強化学習アルゴリズム,セーフティ・クリティカル・ポリシー・オプティマイゼーションを導入する。
本研究では,安全制約に違反して得られる報酬を無効化する機構である安全評論家を定義した。
理論的解析により,提案アルゴリズムは安全制約への付着と報酬の最大化との間のトレードオフを自動的にバランスできることが示された。
論文 参考訳(メタデータ) (2023-11-01T22:12:50Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Meta-Learning Priors for Safe Bayesian Optimization [72.8349503901712]
メタ学習アルゴリズムであるF-PACOHを構築し,データ不足の設定において確実な定量化を実現する。
コアコントリビューションとして、安全に適合した事前をデータ駆動で選択するための新しいフレームワークを開発する。
ベンチマーク関数と高精度動作系において,我々のメタ学習先行が安全なBOアプローチの収束を加速することを示す。
論文 参考訳(メタデータ) (2022-10-03T08:38:38Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Are Evolutionary Algorithms Safe Optimizers? [3.3044468943230427]
本稿では、進化計算(EC)コミュニティにおける安全な最適化問題(SafeOP)への関心を再燃させることを目的とする。
我々は、SafeOPの正式な定義を提供し、選択された安全な最適化アルゴリズムの性能に対する鍵となるSafeOPパラメータの影響を調査し、最先端の安全な最適化アルゴリズムに対してECをベンチマークする。
論文 参考訳(メタデータ) (2022-03-24T17:11:36Z) - Safe Online Bid Optimization with Return-On-Investment and Budget
Constraints subject to Uncertainty [87.81197574939355]
最適化問題と学習問題の両方について検討する。
我々は、潜在的に線形な数の制約違反を犠牲にして、サブ線形後悔を保証するアルゴリズム、すなわちGCBを提供する。
より興味深いことに、我々はGCB_safe(psi,phi)というアルゴリズムを提供し、サブ線形擬似回帰と安全性w.h.p.の両方を、耐性 psi と phi を受け入れるコストで保証する。
論文 参考訳(メタデータ) (2022-01-18T17:24:20Z) - Safe Policy Optimization with Local Generalized Linear Function
Approximations [17.84511819022308]
既存の安全探査法は、規則性の前提で安全を保証した。
本研究では,センサによって得られる局所的特徴と環境報酬・安全との関係を学習しながら,エージェントのポリシーを最適化する新しいアルゴリズムであるSPO-LFを提案する。
提案アルゴリズムは,1) サンプルの複雑さと計算コストの点で効率が良く,2) 理論的保証のある従来の安全RL法よりも大規模な問題に適用可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T00:47:50Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。