論文の概要: Online Optimal Control with Affine Constraints
- arxiv url: http://arxiv.org/abs/2010.04891v2
- Date: Tue, 13 Jul 2021 06:26:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 23:38:16.898134
- Title: Online Optimal Control with Affine Constraints
- Title(参考訳): アフィン制約によるオンライン最適制御
- Authors: Yingying Li, Subhro Das, Na Li
- Abstract要約: バッファゾーン(OGD-BZ)を用いたオンライングラディエントDescentを提案する。
適切なパラメータを持つOGD-BZは、許容される障害にもかかわらず、システムに全ての制約を満たすことを保証できることを示す。
我々は,OGD-BZが,適切なアルゴリズムパラメータの下で水平長の対数項に乗じて,水平長の平方根である政策後悔の上界を達成可能であることを示す。
- 参考スコア(独自算出の注目度): 21.38884399077742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper considers online optimal control with affine constraints on the
states and actions under linear dynamics with bounded random disturbances. The
system dynamics and constraints are assumed to be known and time-invariant but
the convex stage cost functions change adversarially. To solve this problem, we
propose Online Gradient Descent with Buffer Zones (OGD-BZ). Theoretically, we
show that OGD-BZ with proper parameters can guarantee the system to satisfy all
the constraints despite any admissible disturbances. Further, we investigate
the policy regret of OGD-BZ, which compares OGD-BZ's performance with the
performance of the optimal linear policy in hindsight. We show that OGD-BZ can
achieve a policy regret upper bound that is the square root of the horizon
length multiplied by some logarithmic terms of the horizon length under proper
algorithm parameters.
- Abstract(参考訳): 本稿では,無作為外乱を伴う線形動力学下の状態と動作に対するアフィン制約を伴うオンライン最適制御について考察する。
システム力学と制約は既知の時間不変と仮定されるが、凸ステージのコスト関数は逆向きに変化する。
この問題を解決するために,バッファゾーン(OGD-BZ)を用いたオンライングラディエントDescentを提案する。
理論的には、適切なパラメータを持つOGD-BZは、許容される障害にもかかわらず、システムに全ての制約を満たすことを保証できることを示す。
さらに、OGD-BZの性能と最適線形ポリシーの性能を後から比較したOGD-BZの政策後悔について検討する。
我々は,OGD-BZが,適切なアルゴリズムパラメータの下で水平長の対数項に乗じて,水平長の平方根である政策後悔上限を達成することを示す。
関連論文リスト
- LinearAPT: An Adaptive Algorithm for the Fixed-Budget Thresholding
Linear Bandit Problem [4.666048091337632]
本稿では、Thresholding Linear Bandit(TLB)問題の固定予算設定のために設計された新しいアルゴリズムであるLinearAPTを提案する。
コントリビューションでは、LinearAPTの適応性、単純性、計算効率を強調しており、複雑なシーケンシャルな意思決定課題に対処するためのツールキットとして貴重なものとなっている。
論文 参考訳(メタデータ) (2024-03-10T15:01:50Z) - Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - Constraint-Generation Policy Optimization (CGPO): Nonlinear Programming
for Policy Optimization in Mixed Discrete-Continuous MDPs [23.87856533426793]
CGPOは、表現力のある非線形力学を持つ多くのDC-MDPに対して、無限の範囲の初期状態に対する有界なポリシーエラーを保証する。
CGPOは、最悪の状態軌跡を生成して、政策上の欠陥を診断し、最適な行動の反実的な説明を提供する。
在庫管理や貯水池のシステム管理など,多様な分野におけるCGPOの適用性について実験的に検証した。
論文 参考訳(メタデータ) (2024-01-20T07:12:57Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Safe Neural Control for Non-Affine Control Systems with Differentiable
Control Barrier Functions [58.19198103790931]
本稿では,非アフィン制御系における安全クリティカル制御の問題に対処する。
制御バリア関数(CBF)を用いて,状態制約と制御制約の2次コストの最適化を2次プログラムのシーケンス(QP)にサブ最適化できることが示されている。
我々は,高次CBFをニューラル常微分方程式に基づく学習モデルに差分CBFとして組み込んで,非アフィン制御系の安全性を保証する。
論文 参考訳(メタデータ) (2023-09-06T05:35:48Z) - Projection-Free Online Convex Optimization with Stochastic Constraints [0.0]
我々は制約付きオンライン凸最適化のためのプロジェクションフリーアルゴリズムを開発した。
各種設定に対してサブ線形後悔と制約違反境界を推定する。
我々は、制約違反を減らして、後悔と同じ成長をすることができることを証明している。
論文 参考訳(メタデータ) (2023-05-02T11:27:34Z) - Online Nonstochastic Control with Adversarial and Static Constraints [12.2632894803286]
本稿では,オンライン非確率的制御アルゴリズムを提案する。
我々のアルゴリズムは敵の制約に適応し、より少ない累積コストと違反を達成する。
論文 参考訳(メタデータ) (2023-02-05T16:46:12Z) - A Unifying Framework for Online Optimization with Long-Term Constraints [62.35194099438855]
我々は,意思決定者が長期的制約の対象となる一連の意思決定をしなければならないオンライン学習問題について検討する。
目標は、全報酬を最大化し、同時に、$T$ラウンド全体で小さな累積違反を達成することである。
本稿では,この一般クラス問題に対して,未知のモデルに基づいて報酬と制約が選択された場合と,各ラウンドで敵が選択した場合の双方において,最良世界型アルゴリズムを提示する。
論文 参考訳(メタデータ) (2022-09-15T16:59:19Z) - Safe Online Bid Optimization with Return-On-Investment and Budget
Constraints subject to Uncertainty [87.81197574939355]
最適化問題と学習問題の両方について検討する。
我々は、潜在的に線形な数の制約違反を犠牲にして、サブ線形後悔を保証するアルゴリズム、すなわちGCBを提供する。
より興味深いことに、我々はGCB_safe(psi,phi)というアルゴリズムを提供し、サブ線形擬似回帰と安全性w.h.p.の両方を、耐性 psi と phi を受け入れるコストで保証する。
論文 参考訳(メタデータ) (2022-01-18T17:24:20Z) - Stage-wise Conservative Linear Bandits [37.717532659194426]
オンライン広告や医療実験などのアプリケーションに現れる(未知の)安全制約を考慮に入れた帯域最適化について検討する。
ベースライン制約を尊重し、順序 O(sqrtT log T) の確率的後悔境界を楽しむ2つの新しいアルゴリズムを提案する。
特に、提案アルゴリズムは、様々な問題に対処するために、小さな修正だけで調整できる。
論文 参考訳(メタデータ) (2020-09-30T19:51:37Z) - On Lower Bounds for Standard and Robust Gaussian Process Bandit
Optimization [55.937424268654645]
有界ノルムを持つ関数のブラックボックス最適化問題に対するアルゴリズム非依存な下界を考える。
本稿では, 単純さ, 汎用性, エラー確率への依存性の向上など, 後悔の下位境界を導出するための新しい証明手法を提案する。
論文 参考訳(メタデータ) (2020-08-20T03:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。