論文の概要: Adaptive Online Non-stochastic Control
- arxiv url: http://arxiv.org/abs/2310.02261v2
- Date: Mon, 4 Dec 2023 14:02:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 21:57:19.064015
- Title: Adaptive Online Non-stochastic Control
- Title(参考訳): 適応型オンライン非確率制御
- Authors: Naram Mhaisen, George Iosifidis
- Abstract要約: 我々は,制御環境の難易度に比例した政策後悔のアルゴリズムを得る目的で,非確率制御(NSC)の問題に取り組む。
FTRL(Follow The Regularized Leader)フレームワークを、実際に目撃されたコストに比例した正規化子を使用することで、動的システムに調整します。
- 参考スコア(独自算出の注目度): 12.118137508724734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We tackle the problem of Non-stochastic Control (NSC) with the aim of
obtaining algorithms whose policy regret is proportional to the difficulty of
the controlled environment. Namely, we tailor the Follow The Regularized Leader
(FTRL) framework to dynamical systems by using regularizers that are
proportional to the actual witnessed costs. The main challenge arises from
using the proposed adaptive regularizers in the presence of a state, or
equivalently, a memory, which couples the effect of the online decisions and
requires new tools for bounding the regret. Via new analysis techniques for NSC
and FTRL integration, we obtain novel disturbance action controllers (DAC) with
sub-linear data adaptive policy regret bounds that shrink when the trajectory
of costs has small gradients, while staying sub-linear even in the worst case.
- Abstract(参考訳): 我々は,制御環境の難易度に比例した政策後悔のアルゴリズムを得る目的で,非確率制御(NSC)の問題に取り組む。
すなわち、実際に目撃されたコストに比例した正規化子を使用することで、FTRL(Follow The Regularized Leader)フレームワークを動的システムに調整します。
主な課題は、オンライン決定の効果を結合し、後悔を束縛するための新しいツールを必要とする、状態または同等のメモリの存在下で提案された適応正規化子を使用することである。
NSCとFTRLの統合のための新しい解析手法により、最悪の場合であっても、コストの軌道が勾配が小さい場合に縮小するサブ線形データ適応ポリシーリフレクションバウンドを持つ新しい外乱動作制御器(DAC)を得る。
関連論文リスト
- Neural Port-Hamiltonian Models for Nonlinear Distributed Control: An Unconstrained Parametrization Approach [0.0]
ニューラルネットワーク(NN)は、優れたパフォーマンスをもたらす制御ポリシのパラメータ化に利用することができる。
NNの小さな入力変更に対する感度は、クローズドループシステムの不安定化のリスクを引き起こす。
これらの問題に対処するために、ポート・ハミルトンシステムのフレームワークを活用して、連続時間分散制御ポリシーを設計する。
提案する分散コントローラの有効性は,非ホロノミック移動ロボットのコンセンサス制御によって実証される。
論文 参考訳(メタデータ) (2024-11-15T10:44:29Z) - Regret Analysis of Policy Optimization over Submanifolds for Linearly
Constrained Online LQG [12.201535821920624]
制御器に与えられた線形制約を持つオンライン線形二次ガウス問題について検討する。
関数列の第1次および第2次情報に対する予測に基づいてオンラインコントローラを提供するオンライン楽観的ニュートン(OONM)を提案する。
論文 参考訳(メタデータ) (2024-03-13T14:06:18Z) - Online Nonstochastic Control with Adversarial and Static Constraints [12.2632894803286]
本稿では,オンライン非確率的制御アルゴリズムを提案する。
我々のアルゴリズムは敵の制約に適応し、より少ない累積コストと違反を達成する。
論文 参考訳(メタデータ) (2023-02-05T16:46:12Z) - Best of Both Worlds in Online Control: Competitive Ratio and Policy
Regret [61.59646565655169]
我々は,最近提案されたオンライン制御アルゴリズムが,両世界のベストを達成していることを示す。
線形力学系が未知の場合には, 準線形後悔対最適競争政策が達成可能であると結論づける。
論文 参考訳(メタデータ) (2022-11-21T07:29:08Z) - Regret-optimal Estimation and Control [52.28457815067461]
後悔最適推定器と後悔最適制御器は状態空間形式で導出可能であることを示す。
非線形力学系に対するモデル予測制御(MPC)と拡張KalmanFilter(EKF)の残差最適類似性を提案する。
論文 参考訳(メタデータ) (2021-06-22T23:14:21Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z) - Adaptive Regret for Control of Time-Varying Dynamics [31.319502238224334]
制御の分野に適応的後悔の尺度を導入する。
私たちの主な貢献は、新しい効率的なメタアルゴリズムです。
主要な技術的革新は、メモリを伴うオンライン凸最適化のより一般的なフレームワークに対する最初の適応的後悔のバウンドである。
論文 参考訳(メタデータ) (2020-07-08T19:40:34Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。