論文の概要: Non-stationary Online Learning with Memory and Non-stochastic Control
- arxiv url: http://arxiv.org/abs/2102.03758v4
- Date: Tue, 15 Aug 2023 02:31:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 17:56:30.213451
- Title: Non-stationary Online Learning with Memory and Non-stochastic Control
- Title(参考訳): 記憶と非確率制御による非定常オンライン学習
- Authors: Peng Zhao and Yu-Hu Yan and Yu-Xiang Wang and Zhi-Hua Zhou
- Abstract要約: 我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 71.14503310914799
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of Online Convex Optimization (OCO) with memory, which
allows loss functions to depend on past decisions and thus captures temporal
effects of learning problems. In this paper, we introduce dynamic policy regret
as the performance measure to design algorithms robust to non-stationary
environments, which competes algorithms' decisions with a sequence of changing
comparators. We propose a novel algorithm for OCO with memory that provably
enjoys an optimal dynamic policy regret in terms of time horizon,
non-stationarity measure, and memory length. The key technical challenge is how
to control the switching cost, the cumulative movements of player's decisions,
which is neatly addressed by a novel switching-cost-aware online ensemble
approach equipped with a new meta-base decomposition of dynamic policy regret
and a careful design of meta-learner and base-learner that explicitly
regularizes the switching cost. The results are further applied to tackle
non-stationarity in online non-stochastic control (Agarwal et al., 2019), i.e.,
controlling a linear dynamical system with adversarial disturbance and convex
cost functions. We derive a novel gradient-based controller with dynamic policy
regret guarantees, which is the first controller provably competitive to a
sequence of changing policies for online non-stochastic control.
- Abstract(参考訳): 我々は,過去の決定に依拠した損失関数を記憶機能に組み込んだオンライン凸最適化(OCO)の問題について検討し,学習課題の時間的影響を捉える。
本稿では,非定常環境に頑健なアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
本稿では,時間軸,非定常測度,メモリ長の観点で,最適な動的ポリシー後悔を味わうメモリ付きocoの新しいアルゴリズムを提案する。
技術的な課題は、スイッチングコストの制御方法、プレイヤーの決定の累積的な移動であり、ダイナミックポリシーの後悔の新たなメタベース分解と、スイッチングコストを明示的に定式化するメタリーナーとベースリーナーの注意深く設計された新しいスイッチングコストアウェアオンラインアンサンブルアプローチによってうまく対処される。
さらに, オンライン非定常制御 (agarwal et al., 2019) における非定常性,すなわち, 逆乱と凸コスト関数を伴う線形力学系を制御することに適用した。
オンラインの非確率的制御のための一連の変更ポリシーと競合する最初のコントローラである動的ポリシー後悔保証付き勾配ベースの新しいコントローラを導出する。
関連論文リスト
- Adaptive Online Non-stochastic Control [10.25772015681554]
我々は,制御環境の難易度に比例した政策後悔のアルゴリズムを得る目的で,非確率制御(NSC)の問題に取り組む。
FTRL(Follow The Regularized Leader)フレームワークを、実際に目撃されたコストに比例した正規化子を使用することで、動的システムに調整します。
論文 参考訳(メタデータ) (2023-10-02T12:32:24Z) - Online Nonstochastic Model-Free Reinforcement Learning [35.377261344335736]
本研究では,動的あるいは敵対的な環境に対するロバストモデルロバスト性保証について検討する。
これらのポリシーを最適化するための効率的かつ効率的なアルゴリズムを提供する。
これらは状態空間に依存せず、状態空間に依存しない最もよく知られた発展である。
論文 参考訳(メタデータ) (2023-05-27T19:02:55Z) - Efficient Online Learning with Memory via Frank-Wolfe Optimization:
Algorithms with Bounded Dynamic Regret and Applications to Control [15.588080817106563]
動的後悔を最小限に抑えるメモリ付きプロジェクションフリーなメタベース学習アルゴリズムを提案する。
私たちは、自律的なエージェントが時間によって変化する環境に適応する必要がある人工知能アプリケーションによって動機付けられています。
論文 参考訳(メタデータ) (2023-01-02T01:12:29Z) - Best of Both Worlds in Online Control: Competitive Ratio and Policy
Regret [61.59646565655169]
我々は,最近提案されたオンライン制御アルゴリズムが,両世界のベストを達成していることを示す。
線形力学系が未知の場合には, 準線形後悔対最適競争政策が達成可能であると結論づける。
論文 参考訳(メタデータ) (2022-11-21T07:29:08Z) - Introduction to Online Nonstochastic Control [34.77535508151501]
オンラインの非確率制御では、コスト関数と仮定された力学モデルからの摂動の両方が敵によって選択される。
目標は、ベンチマーククラスの政策から見て、最高の政策に対して低い後悔を得ることだ。
論文 参考訳(メタデータ) (2022-11-17T16:12:45Z) - Dynamic Regret of Online Markov Decision Processes [84.20723936192945]
オンラインマルコフ決定過程 (MDP) について, 損失関数や既知の遷移を逆向きに変化させることで検討する。
我々は,学習者と実行可能な変更ポリシーのシーケンス間のパフォーマンス差として定義されるパフォーマンス指標として,動的後悔を選択する。
オンラインMDPの基本モデルとして, エピソードループフリーショート・パス(SSP), エピソードSSP, 無限水平MPPの3つを考察する。
論文 参考訳(メタデータ) (2022-08-26T07:42:53Z) - Adaptivity and Non-stationarity: Problem-dependent Dynamic Regret for Online Convex Optimization [70.4342220499858]
本稿では,スムーズさを生かし,問題依存量による動的後悔のT$への依存を補う新しいオンラインアルゴリズムを提案する。
この結果が本質的な難易度に適応しているのは, 既往の結果よりも厳密であり, 最悪の場合, 同一レートの保護が可能であるからである。
論文 参考訳(メタデータ) (2021-12-29T02:42:59Z) - Learning High-Level Policies for Model Predictive Control [54.00297896763184]
Model Predictive Control (MPC)は、ロボット制御タスクに対する堅牢なソリューションを提供する。
ニューラルネットワークの高レベルポリシーを学習するための自己教師付き学習アルゴリズムを提案する。
提案手法は, 標準的なMPCでは困難な状況に対処できることを示す。
論文 参考訳(メタデータ) (2020-07-20T17:12:34Z) - Learning Constrained Adaptive Differentiable Predictive Control Policies
With Guarantees [1.1086440815804224]
本稿では,線形システムに対する制約付きニューラルコントロールポリシーの学習方法として,微分可能予測制御(DPC)を提案する。
我々は,モデル予測制御(MPC)損失関数の逆伝搬と,微分可能な閉ループ系力学モデルによるペナルティの制約により,直接的な政策勾配を求めるために,自動微分を用いる。
論文 参考訳(メタデータ) (2020-04-23T14:24:44Z) - Logarithmic Regret for Adversarial Online Control [56.12283443161479]
対数的後悔を伴う最初のアルゴリズムを任意対数外乱列に対して与える。
我々のアルゴリズムと分析はオフライン制御法の特徴を利用してオンライン制御問題を(遅延)オンライン学習に還元する。
論文 参考訳(メタデータ) (2020-02-29T06:29:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。