論文の概要: Dynamic Regret of Policy Optimization in Non-stationary Environments
- arxiv url: http://arxiv.org/abs/2007.00148v1
- Date: Tue, 30 Jun 2020 23:34:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 05:31:49.058357
- Title: Dynamic Regret of Policy Optimization in Non-stationary Environments
- Title(参考訳): 非定常環境における政策最適化の動的後悔
- Authors: Yingjie Fei, Zhuoran Yang, Zhaoran Wang, Qiaomin Xie
- Abstract要約: 我々は,POWERとPOWER++の2つのモデルフリーポリシー最適化アルゴリズムを提案し,その動的後悔の保証を確立する。
我々はPOWER++が動的後悔の第2の構成要素であるPOWERよりも優れており、予測によって非定常性に積極的に適応していることを示す。
我々の知識を最大限に活用するために、我々の研究は、非定常環境におけるモデルフリーなRLアルゴリズムの、最初の動的後悔分析である。
- 参考スコア(独自算出の注目度): 120.01408308460095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider reinforcement learning (RL) in episodic MDPs with adversarial
full-information reward feedback and unknown fixed transition kernels. We
propose two model-free policy optimization algorithms, POWER and POWER++, and
establish guarantees for their dynamic regret. Compared with the classical
notion of static regret, dynamic regret is a stronger notion as it explicitly
accounts for the non-stationarity of environments. The dynamic regret attained
by the proposed algorithms interpolates between different regimes of
non-stationarity, and moreover satisfies a notion of adaptive
(near-)optimality, in the sense that it matches the (near-)optimal static
regret under slow-changing environments. The dynamic regret bound features two
components, one arising from exploration, which deals with the uncertainty of
transition kernels, and the other arising from adaptation, which deals with
non-stationary environments. Specifically, we show that POWER++ improves over
POWER on the second component of the dynamic regret by actively adapting to
non-stationarity through prediction. To the best of our knowledge, our work is
the first dynamic regret analysis of model-free RL algorithms in non-stationary
environments.
- Abstract(参考訳): 本研究は,敵対的全情報報酬フィードバックと未知の固定遷移カーネルを持つエピソードMDPにおける強化学習(RL)について考察する。
我々は,POWERとPOWER++の2つのモデルフリーポリシー最適化アルゴリズムを提案し,その動的後悔を保証する。
静的後悔という古典的な概念と比較すると、動的後悔は環境の非定常性を明確に説明できるため、より強い概念である。
提案手法によって達成された動的後悔は、非定常性の異なるレジームの間で補間され、さらに、遅い変化する環境下での(近傍)最適の静的後悔と一致するという意味で適応的(近距離)最適化の概念を満たす。
動的後悔のバウンドには、遷移核の不確実性を扱う探索から生じるものと、非定常環境を扱う適応から生じるものという2つの構成要素がある。
具体的には、POWER++は、動的後悔の第2のコンポーネントであるPOWERよりも、予測によって非定常性に積極的に適応することで改善することを示す。
我々の知る限り、我々の研究は、非定常環境におけるモデルフリーなRLアルゴリズムの、最初の動的後悔分析である。
関連論文リスト
- Learn to Memorize and to Forget: A Continual Learning Perspective of Dynamic SLAM [17.661231232206028]
暗黙的な神経表現を伴う同時局所化とマッピング(SLAM)が注目されている。
動的環境のための新しいSLAMフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-18T09:35:48Z) - Vector Autoregressive Evolution for Dynamic Multi-Objective Optimisation [7.5104598146227]
動的多目的最適化(DMO)は、様々な環境において複数の目的を持つ最適化問題を扱う。
本稿では,DMOの環境変化に対応するために,ベクトル自己回帰(VAR)と環境対応ハイパーミューテーションからなるベクトル自己回帰進化(VARE)を提案する。
論文 参考訳(メタデータ) (2023-05-22T06:24:25Z) - Universal Online Optimization in Dynamic Environments via Uniclass
Prediction [0.0]
動的環境におけるユニバーサルオンライン最適化のための新しい直感的なフレームワークを提案する。
私たちの戦略は、専門家のセットと付随するメタアルゴリズムの構築に依存していません。
これは、一般凸コスト関数に対しても、最先端の動的後悔保証を伴う普遍的アプローチを提案する最初の論文である。
論文 参考訳(メタデータ) (2023-02-13T03:00:45Z) - ANACONDA: An Improved Dynamic Regret Algorithm for Adaptive
Non-Stationary Dueling Bandits [20.128001589147512]
本研究では,非定常デュエル帯域の問題について検討し,この問題に対する適応的動的後悔アルゴリズムを提案する。
ほぼ最適の $tildeO(sqrtStexttCW T)$ dynamic regret bound を示します。
論文 参考訳(メタデータ) (2022-10-25T20:26:02Z) - Dynamic Regret of Adaptive Gradient Methods for Strongly Convex Problems [0.0]
我々は、動的後悔の概念を通じて、強い凸条件でADAGRAD(M-ADAGRAD)の変種を通り抜ける。
我々は、環境の非定常性を本質的に反映する最小化シーケンスのパス長という観点で、後悔すべき境界を示す。
論文 参考訳(メタデータ) (2022-09-04T12:40:57Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Value Iteration in Continuous Actions, States and Time [99.00362538261972]
連続状態と動作に対する連続的適合値反復(cFVI)アルゴリズムを提案する。
非線形制御アフィンダイナミクスに対して最適なポリシを導出することができる。
物理システムのビデオは、urlhttps://sites.google.com/view/value-iteration.comで入手できる。
論文 参考訳(メタデータ) (2021-05-10T21:40:56Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z) - Minimizing Dynamic Regret and Adaptive Regret Simultaneously [60.17824125301273]
動的後悔と適応的後悔を同時に最小化できる新しいオンラインアルゴリズムを提案する。
我々の理論的保証は、あるアルゴリズムが任意の間隔で動的後悔を最小化できるという意味でさらに強い。
論文 参考訳(メタデータ) (2020-02-06T03:32:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。