論文の概要: Optimistic Online Non-stochastic Control via FTRL
- arxiv url: http://arxiv.org/abs/2404.03309v2
- Date: Mon, 26 Aug 2024 10:21:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 23:56:35.805685
- Title: Optimistic Online Non-stochastic Control via FTRL
- Title(参考訳): FTRLによる最適オンライン非確率制御
- Authors: Naram Mhaisen, George Iosifidis,
- Abstract要約: 本稿では、オンライン非確率制御の新しいフレームワークに「楽観主義」の概念をもたらす。
信頼できない予測をオンラインコントロールに組み込むことの課題に対処することにより、NSCフレームワークの進歩に寄与する。
- 参考スコア(独自算出の注目度): 10.25772015681554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper brings the concept of ``optimism" to the new and promising framework of online Non-stochastic Control (NSC). Namely, we study how NSC can benefit from a prediction oracle of unknown quality responsible for forecasting future costs. The posed problem is first reduced to an optimistic learning with delayed feedback problem, which is handled through the Optimistic Follow the Regularized Leader (OFTRL) algorithmic family. This reduction enables the design of \texttt{OptFTRL-C}, the first Disturbance Action Controller (DAC) with optimistic policy regret bounds. These new bounds are commensurate with the oracle's accuracy, ranging from $\mathcal{O}(1)$ for perfect predictions to the order-optimal $\mathcal{O}(\sqrt{T})$ even when all predictions fail. By addressing the challenge of incorporating untrusted predictions into online control, this work contributes to the advancement of the NSC framework and paves the way toward effective and robust learning-based controllers.
- Abstract(参考訳): 本稿では、オンライン非確率制御(NSC)の新しいフレームワークに「最適化」の概念を取り入れる。
すなわち,NSCが将来的なコスト予測に寄与する未知品質の予測オラクルからどのような恩恵を受けるかを検討する。
提案した問題はまず遅延フィードバック問題による楽観的な学習に還元され、OFTRLアルゴリズムファミリによって処理される。
この削減により、楽観的な政策後悔境界を持つ最初の外乱行動制御器 (DAC) である \texttt{OptFTRL-C} の設計が可能になる。
これらの新しい境界は、完全予測の$\mathcal{O}(1)$から、全ての予測が失敗しても順序最適化の$\mathcal{O}(\sqrt{T})$まで、オラクルの精度と相容れない。
信頼できない予測をオンラインコントロールに組み込むことの課題に対処することにより、NSCフレームワークの進歩に寄与し、効果的で堅牢な学習ベースのコントローラへの道を開く。
関連論文リスト
- Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
新たなオフラインアライメントアルゴリズムである$chi2$-Preference Optimization(chi$PO)を提案する。
$chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。
過度な最適化には確実に堅牢であり、単一政治の集中性に基づいたサンプル複雑度保証を実現する。
論文 参考訳(メタデータ) (2024-07-18T11:08:40Z) - Regret Analysis of Policy Optimization over Submanifolds for Linearly
Constrained Online LQG [12.201535821920624]
制御器に与えられた線形制約を持つオンライン線形二次ガウス問題について検討する。
関数列の第1次および第2次情報に対する予測に基づいてオンラインコントローラを提供するオンライン楽観的ニュートン(OONM)を提案する。
論文 参考訳(メタデータ) (2024-03-13T14:06:18Z) - Sub-linear Regret in Adaptive Model Predictive Control [56.705978425244496]
本稿では,STT-MPC (Self-Tuning tube-based Model Predictive Control) について述べる。
システム力学を最初に認識したアルゴリズムと比較して,アルゴリズムの後悔を解析する。
論文 参考訳(メタデータ) (2023-10-07T15:07:10Z) - Online Learning and Optimization for Queues with Unknown Demand Curve
and Service Distribution [26.720986177499338]
サービス提供者が最適なサービス料金 p とサービス容量 mu を選択する待ち行列システムにおける最適化問題について検討する。
本研究では,パラメータ推定誤差を自動的に解法に組み込むオンライン学習フレームワークを開発した。
論文 参考訳(メタデータ) (2023-03-06T08:47:40Z) - Follow the Clairvoyant: an Imitation Learning Approach to Optimal
Control [4.978565634673048]
競合解析のレンズによる力学系の制御について考察する。
最適コストが理想的な閉ループ動作に関する粗い情報のみを提供するという観測により、トラッキングエラーを最小化することを提案する。
論文 参考訳(メタデータ) (2022-11-14T14:15:12Z) - Rate-Optimal Online Convex Optimization in Adaptive Linear Control [0.0]
コストの逆変化による未知凸線形系の制御について考察する。
最適線形後角関数を実現するための最初の計算式を提示する。
論文 参考訳(メタデータ) (2022-06-03T07:32:11Z) - Smoothed Online Convex Optimization Based on Discounted-Normal-Predictor [68.17855675511602]
円滑なオンライン凸最適化(SOCO)のためのオンライン予測戦略について検討する。
提案アルゴリズムは,各区間の切替コストで適応的後悔を最小限に抑えることができることを示す。
論文 参考訳(メタデータ) (2022-05-02T08:48:22Z) - Lazy Lagrangians with Predictions for Online Learning [24.18464455081512]
オンライン凸最適化における時間的差分制約による一般的な問題について考察する。
Follow-The-Regularized-Leaderイテレーションと予測適応動的ステップを組み合わせることで、新しい原始双対アルゴリズムを設計する。
我々の研究は、この制約されたOCO設定のためのFTRLフレームワークを拡張し、各最先端のグレディベースのソリューションより優れています。
論文 参考訳(メタデータ) (2022-01-08T21:49:10Z) - Regret-optimal Estimation and Control [52.28457815067461]
後悔最適推定器と後悔最適制御器は状態空間形式で導出可能であることを示す。
非線形力学系に対するモデル予測制御(MPC)と拡張KalmanFilter(EKF)の残差最適類似性を提案する。
論文 参考訳(メタデータ) (2021-06-22T23:14:21Z) - Optimal Robustness-Consistency Trade-offs for Learning-Augmented Online
Algorithms [85.97516436641533]
機械学習予測を取り入れたオンラインアルゴリズムの性能向上の課題について検討する。
目標は、一貫性と堅牢性の両方を備えたアルゴリズムを設計することだ。
機械学習予測を用いた競合解析のための非自明な下界の最初のセットを提供する。
論文 参考訳(メタデータ) (2020-10-22T04:51:01Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。