論文の概要: Safe Online Convex Optimization with Unknown Linear Safety Constraints
- arxiv url: http://arxiv.org/abs/2111.07430v1
- Date: Sun, 14 Nov 2021 19:49:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-16 17:39:14.338145
- Title: Safe Online Convex Optimization with Unknown Linear Safety Constraints
- Title(参考訳): 未知線形安全制約を持つ安全なオンライン凸最適化
- Authors: Sapana Chaudhary and Dileep Kalathil
- Abstract要約: 安全なオンライン凸最適化の問題について検討し、各ステップの動作は一連の線形安全制約を満たす必要がある。
線形安全性制約を指定するパラメータはアルゴリズムでは未知である。
安全なベースライン動作が可能であるという仮定の下で、SO-PGDアルゴリズムは、後悔する$O(T2/3)$を達成していることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of safe online convex optimization, where the action at
each time step must satisfy a set of linear safety constraints. The goal is to
select a sequence of actions to minimize the regret without violating the
safety constraints at any time step (with high probability). The parameters
that specify the linear safety constraints are unknown to the algorithm. The
algorithm has access to only the noisy observations of constraints for the
chosen actions. We propose an algorithm, called the {Safe Online Projected
Gradient Descent} (SO-PGD) algorithm, to address this problem. We show that,
under the assumption of the availability of a safe baseline action, the SO-PGD
algorithm achieves a regret $O(T^{2/3})$. While there are many algorithms for
online convex optimization (OCO) problems with safety constraints available in
the literature, they allow constraint violations during learning/optimization,
and the focus has been on characterizing the cumulative constraint violations.
To the best of our knowledge, ours is the first work that provides an algorithm
with provable guarantees on the regret, without violating the linear safety
constraints (with high probability) at any time step.
- Abstract(参考訳): 本研究では,各ステップの動作が線形安全制約を満たさなければならないオンライン凸最適化の問題点について検討する。
目標は、(高い確率で)安全制約に違反することなく、後悔を最小限に抑える一連の行動を選択することである。
線形安全性制約を指定するパラメータはアルゴリズムでは未知である。
アルゴリズムは、選択されたアクションに対する制約のノイズの観察のみにアクセスできる。
この問題に対処するアルゴリズムとして, {Safe Online Projected Gradient Descent} (SO-PGD) アルゴリズムを提案する。
安全なベースライン動作が可能であると仮定すると、SO-PGDアルゴリズムは後悔する$O(T^{2/3})を達成できることを示す。
文献には安全制約を伴うオンライン凸最適化(OCO)問題に対する多くのアルゴリズムがあるが、学習・最適化中に制約違反を許容し、累積制約違反の特徴付けに重点を置いている。
私たちの知る限りでは、あらゆる段階において(高い確率で)線形安全性の制約に違反することなく、後悔に対する証明可能な保証をアルゴリズムに提供する最初の研究です。
関連論文リスト
- Safe Reinforcement Learning for Constrained Markov Decision Processes with Stochastic Stopping Time [0.6554326244334868]
安全制約付きマルコフ決定過程に対するオンライン強化学習アルゴリズムを提案する。
学習方針は高い信頼を持って安全であることを示す。
また、プロキシセットと呼ばれる状態空間のサブセットを定義することで、効率的な探索を実現することができることを示す。
論文 参考訳(メタデータ) (2024-03-23T20:22:30Z) - Truly No-Regret Learning in Constrained MDPs [61.78619476991494]
未知のCMDPで学習するモデルベース原始双対アルゴリズムを提案する。
提案アルゴリズムは,誤差のキャンセルを伴わずにサブ線形後悔を実現する。
論文 参考訳(メタデータ) (2024-02-24T09:47:46Z) - SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization [1.3597551064547502]
本研究では,新しい安全強化学習アルゴリズム,セーフティ・クリティカル・ポリシー・オプティマイゼーションを導入する。
本研究では,安全制約に違反して得られる報酬を無効化する機構である安全評論家を定義した。
理論的解析により,提案アルゴリズムは安全制約への付着と報酬の最大化との間のトレードオフを自動的にバランスできることが示された。
論文 参考訳(メタデータ) (2023-11-01T22:12:50Z) - Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文 参考訳(メタデータ) (2023-02-05T14:22:41Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Safe Online Bid Optimization with Return-On-Investment and Budget
Constraints subject to Uncertainty [87.81197574939355]
最適化問題と学習問題の両方について検討する。
我々は、潜在的に線形な数の制約違反を犠牲にして、サブ線形後悔を保証するアルゴリズム、すなわちGCBを提供する。
より興味深いことに、我々はGCB_safe(psi,phi)というアルゴリズムを提供し、サブ線形擬似回帰と安全性w.h.p.の両方を、耐性 psi と phi を受け入れるコストで保証する。
論文 参考訳(メタデータ) (2022-01-18T17:24:20Z) - Safe Adaptive Learning-based Control for Constrained Linear Quadratic
Regulators with Regret Guarantees [11.627320138064684]
本研究では,2次コスト関数を持つ未知の線形系の状態・動作の安全性制約を考慮した適応制御について検討する。
本アルゴリズムは単一軌道上に実装されており,システム再起動を必要としない。
論文 参考訳(メタデータ) (2021-10-31T05:52:42Z) - Excursion Search for Constrained Bayesian Optimization under a Limited
Budget of Failures [62.41541049302712]
本稿では,所定の予算の失敗の関数として探索において許容されるリスクの量を制御する制御理論に基づく新しい意思決定者を提案する。
本アルゴリズムは, 種々の最適化実験において, 故障予算をより効率的に利用し, 一般に, 最先端の手法よりも, 後悔度を低くする。
論文 参考訳(メタデータ) (2020-05-15T09:54:09Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。