論文の概要: Adaptive Online Non-stochastic Control
- arxiv url: http://arxiv.org/abs/2310.02261v1
- Date: Mon, 2 Oct 2023 12:32:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 12:48:50.808267
- Title: Adaptive Online Non-stochastic Control
- Title(参考訳): 適応型オンライン非確率制御
- Authors: Naram Mhaisen, George Iosifidis
- Abstract要約: 制御環境に適応するアルゴリズムの獲得を目的として,非確率制御の課題に取り組む。
我々は、FTRLフレームワークを、状態、またはそれに相当するメモリの存在がオンライン決定の効果を結合する動的システムにカスタマイズする。
- 参考スコア(独自算出の注目度): 12.118137508724734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We tackle the problem of Non-stochastic Control with the aim of obtaining
algorithms that adapt to the controlled environment. Namely, we tailor the FTRL
framework to dynamical systems where the existence of a state, or equivalently
a memory, couples the effect of the online decisions. By designing novel
regularization techniques that take the system's memory into consideration, we
obtain controllers with new sub-linear data adaptive policy regret bounds.
Furthermore, we append these regularizers with untrusted predictions of future
costs, which enables the design of the first Optimistic FTRL-based controller
whose regret bound is adaptive to the accuracy of the predictions, shrinking
when they are accurate while staying sub-linear even when they all fail.
- Abstract(参考訳): 制御環境に適応するアルゴリズムを得ることを目的として,非統計的制御の問題に取り組む。
つまり、状態の存在、あるいはメモリの存在がオンライン決定の効果を結合する動的システムに対して、ftrlフレームワークを調整します。
システムのメモリを考慮した新しい正規化手法を設計することで、新しいサブリニアデータ適応ポリシーリフレッシュバウンドを持つコントローラを得る。
さらに, 将来のコストに対する信頼できない予測を付加することで, 予測の正確性に適応した最初の楽観的なftrlベースのコントローラの設計が可能となり, 全て失敗しても下位線形のままで精度が低下する。
関連論文リスト
- Neural Port-Hamiltonian Models for Nonlinear Distributed Control: An Unconstrained Parametrization Approach [0.0]
ニューラルネットワーク(NN)は、優れたパフォーマンスをもたらす制御ポリシのパラメータ化に利用することができる。
NNの小さな入力変更に対する感度は、クローズドループシステムの不安定化のリスクを引き起こす。
これらの問題に対処するために、ポート・ハミルトンシステムのフレームワークを活用して、連続時間分散制御ポリシーを設計する。
提案する分散コントローラの有効性は,非ホロノミック移動ロボットのコンセンサス制御によって実証される。
論文 参考訳(メタデータ) (2024-11-15T10:44:29Z) - Regret Analysis of Policy Optimization over Submanifolds for Linearly
Constrained Online LQG [12.201535821920624]
制御器に与えられた線形制約を持つオンライン線形二次ガウス問題について検討する。
関数列の第1次および第2次情報に対する予測に基づいてオンラインコントローラを提供するオンライン楽観的ニュートン(OONM)を提案する。
論文 参考訳(メタデータ) (2024-03-13T14:06:18Z) - Online Nonstochastic Control with Adversarial and Static Constraints [12.2632894803286]
本稿では,オンライン非確率的制御アルゴリズムを提案する。
我々のアルゴリズムは敵の制約に適応し、より少ない累積コストと違反を達成する。
論文 参考訳(メタデータ) (2023-02-05T16:46:12Z) - Best of Both Worlds in Online Control: Competitive Ratio and Policy
Regret [61.59646565655169]
我々は,最近提案されたオンライン制御アルゴリズムが,両世界のベストを達成していることを示す。
線形力学系が未知の場合には, 準線形後悔対最適競争政策が達成可能であると結論づける。
論文 参考訳(メタデータ) (2022-11-21T07:29:08Z) - Regret-optimal Estimation and Control [52.28457815067461]
後悔最適推定器と後悔最適制御器は状態空間形式で導出可能であることを示す。
非線形力学系に対するモデル予測制御(MPC)と拡張KalmanFilter(EKF)の残差最適類似性を提案する。
論文 参考訳(メタデータ) (2021-06-22T23:14:21Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z) - Adaptive Regret for Control of Time-Varying Dynamics [31.319502238224334]
制御の分野に適応的後悔の尺度を導入する。
私たちの主な貢献は、新しい効率的なメタアルゴリズムです。
主要な技術的革新は、メモリを伴うオンライン凸最適化のより一般的なフレームワークに対する最初の適応的後悔のバウンドである。
論文 参考訳(メタデータ) (2020-07-08T19:40:34Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。