論文の概要: Non-stationary Online Learning with Memory and Non-stochastic Control
- arxiv url: http://arxiv.org/abs/2102.03758v1
- Date: Sun, 7 Feb 2021 09:45:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-09 16:02:56.349934
- Title: Non-stationary Online Learning with Memory and Non-stochastic Control
- Title(参考訳): 記憶と非確率制御による非定常オンライン学習
- Authors: Peng Zhao and Yu-Xiang Wang and Zhi-Hua Zhou
- Abstract要約: 我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシー後悔を導入する。
我々は,最適な動的ポリシーの後悔を確実に享受するメモリを持つOCOの新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 101.89561292986801
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of Online Convex Optimization (OCO) with memory, which
allows loss functions to depend on past decisions and thus captures temporal
effects of learning problems. In this paper, we introduce dynamic policy regret
as the performance measure to design algorithms robust to non-stationary
environments, which competes algorithms' decisions with a sequence of changing
comparators. We propose a novel algorithm for OCO with memory that provably
enjoys an optimal dynamic policy regret. The key technical challenge is how to
control the switching cost, the cumulative movements of player's decisions,
which is neatly addressed by a novel decomposition of dynamic policy regret and
an appropriate meta-expert structure. Furthermore, we generalize the results to
the problem of online non-stochastic control, i.e., controlling a linear
dynamical system with adversarial disturbance and convex loss functions. We
derive a novel gradient-based controller with dynamic policy regret guarantees,
which is the first controller competitive to a sequence of changing policies.
- Abstract(参考訳): 我々は,過去の決定に依拠した損失関数を記憶機能に組み込んだオンライン凸最適化(OCO)の問題について検討し,学習課題の時間的影響を捉えた。
本稿では,ノンステーショナリーな環境に堅牢なアルゴリズムを設計するためのパフォーマンス尺度として動的ポリシーの後悔について紹介する。
我々は,最適な動的ポリシーの後悔を確実に享受するメモリを持つOCOの新しいアルゴリズムを提案する。
重要な技術的課題は、スイッチングコスト、プレイヤーの決定の累積的な動きを制御する方法であり、動的ポリシーの後悔の新しい分解と適切なメタエキスパート構造によってうまく対処されます。
さらに, オンライン非確率制御, すなわち, 対向障害や凸損失関数を伴う線形力学系を制御する問題に対して, 結果を一般化する。
我々は,方針変更の順序に匹敵する最初のコントローラである動的ポリシー後悔保証を備えた,新しい勾配ベースのコントローラを導出する。
関連論文リスト
- Efficient Online Learning with Memory via Frank-Wolfe Optimization:
Algorithms with Bounded Dynamic Regret and Applications to Control [15.588080817106563]
動的後悔を最小限に抑えるメモリ付きプロジェクションフリーなメタベース学習アルゴリズムを提案する。
私たちは、自律的なエージェントが時間によって変化する環境に適応する必要がある人工知能アプリケーションによって動機付けられています。
論文 参考訳(メタデータ) (2023-01-02T01:12:29Z) - Best of Both Worlds in Online Control: Competitive Ratio and Policy
Regret [61.59646565655169]
我々は,最近提案されたオンライン制御アルゴリズムが,両世界のベストを達成していることを示す。
線形力学系が未知の場合には, 準線形後悔対最適競争政策が達成可能であると結論づける。
論文 参考訳(メタデータ) (2022-11-21T07:29:08Z) - Introduction to Online Nonstochastic Control [65.18774760752588]
オンラインの非確率制御では、コスト関数と仮定された力学モデルからの摂動の両方が敵によって選択される。
目標は、ベンチマーククラスの政策から見て、最高の政策に対して低い後悔を得ることだ。
論文 参考訳(メタデータ) (2022-11-17T16:12:45Z) - Dynamic Regret of Online Markov Decision Processes [84.20723936192945]
オンラインマルコフ決定過程 (MDP) について, 損失関数や既知の遷移を逆向きに変化させることで検討する。
我々は,学習者と実行可能な変更ポリシーのシーケンス間のパフォーマンス差として定義されるパフォーマンス指標として,動的後悔を選択する。
オンラインMDPの基本モデルとして, エピソードループフリーショート・パス(SSP), エピソードSSP, 無限水平MPPの3つを考察する。
論文 参考訳(メタデータ) (2022-08-26T07:42:53Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Adversarially Regularized Policy Learning Guided by Trajectory
Optimization [31.122262331980153]
本稿では,スムーズな制御ポリシーを学習するために,trajeCtory optimizAtion (VERONICA) でガイドされた適応正規化 pOlicy learNIng を提案する。
提案手法は,ニューラルポリシー学習のサンプル効率を向上し,各種障害に対するポリシーの堅牢性を高める。
論文 参考訳(メタデータ) (2021-09-16T00:02:11Z) - Dynamic Regret of Policy Optimization in Non-stationary Environments [120.01408308460095]
我々は,POWERとPOWER++の2つのモデルフリーポリシー最適化アルゴリズムを提案し,その動的後悔の保証を確立する。
我々はPOWER++が動的後悔の第2の構成要素であるPOWERよりも優れており、予測によって非定常性に積極的に適応していることを示す。
我々の知識を最大限に活用するために、我々の研究は、非定常環境におけるモデルフリーなRLアルゴリズムの、最初の動的後悔分析である。
論文 参考訳(メタデータ) (2020-06-30T23:34:37Z) - Learning Constrained Adaptive Differentiable Predictive Control Policies
With Guarantees [1.1086440815804224]
本稿では,線形システムに対する制約付きニューラルコントロールポリシーの学習方法として,微分可能予測制御(DPC)を提案する。
我々は,モデル予測制御(MPC)損失関数の逆伝搬と,微分可能な閉ループ系力学モデルによるペナルティの制約により,直接的な政策勾配を求めるために,自動微分を用いる。
論文 参考訳(メタデータ) (2020-04-23T14:24:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。