論文の概要: Dynamic Regret of Online Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2208.12483v1
- Date: Fri, 26 Aug 2022 07:42:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-29 12:37:16.042818
- Title: Dynamic Regret of Online Markov Decision Processes
- Title(参考訳): オンラインマルコフ決定過程の動的後悔
- Authors: Peng Zhao and Long-Fei Li and Zhi-Hua Zhou
- Abstract要約: オンラインマルコフ決定過程 (MDP) について, 損失関数や既知の遷移を逆向きに変化させることで検討する。
我々は,学習者と実行可能な変更ポリシーのシーケンス間のパフォーマンス差として定義されるパフォーマンス指標として,動的後悔を選択する。
オンラインMDPの基本モデルとして, エピソードループフリーショート・パス(SSP), エピソードSSP, 無限水平MPPの3つを考察する。
- 参考スコア(独自算出の注目度): 84.20723936192945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate online Markov Decision Processes (MDPs) with adversarially
changing loss functions and known transitions. We choose dynamic regret as the
performance measure, defined as the performance difference between the learner
and any sequence of feasible changing policies. The measure is strictly
stronger than the standard static regret that benchmarks the learner's
performance with a fixed compared policy. We consider three foundational models
of online MDPs, including episodic loop-free Stochastic Shortest Path (SSP),
episodic SSP, and infinite-horizon MDPs. For these three models, we propose
novel online ensemble algorithms and establish their dynamic regret guarantees
respectively, in which the results for episodic (loop-free) SSP are provably
minimax optimal in terms of time horizon and certain non-stationarity measure.
Furthermore, when the online environments encountered by the learner are
predictable, we design improved algorithms and achieve better dynamic regret
bounds for the episodic (loop-free) SSP; and moreover, we demonstrate
impossibility results for the infinite-horizon MDPs.
- Abstract(参考訳): オンラインマルコフ決定過程 (MDP) について, 損失関数や既知の遷移を逆向きに変化させることで検討する。
我々は,学習者と実現可能な変更方針の列間のパフォーマンスの差として定義される,パフォーマンス尺度として動的後悔を選択する。
この尺度は、学習者のパフォーマンスを固定比較ポリシーでベンチマークする標準的な静的後悔よりも厳格に強い。
オンラインMDPの基本モデルとして, エピソードループのないSSP(Stochastic Shortest Path), エピソードSSP, 無限水平MPPの3つを考える。
これら3つのモデルについて,新たなオンラインアンサンブルアルゴリズムを提案し,その動的後悔の保証をそれぞれ確立する。
さらに,学習者が遭遇するオンライン環境が予測可能である場合,改良されたアルゴリズムを設計し,エピソード(ループフリー)SSPの動的後悔境界を改良し,無限水平MDPの不可能な結果を示す。
関連論文リスト
- Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Online Reinforcement Learning in Markov Decision Process Using Linear
Programming [1.0878040851638]
マルコフ決定過程(MDP)におけるオンライン強化学習について検討した。
我々は,高い確率で$widetildeO(LXsqrtTA)$ regretを実現する,シンプルで効率的なモデルベースアルゴリズムを考案した。
論文 参考訳(メタデータ) (2023-03-31T22:21:41Z) - Efficient Online Learning with Memory via Frank-Wolfe Optimization:
Algorithms with Bounded Dynamic Regret and Applications to Control [15.588080817106563]
動的後悔を最小限に抑えるメモリ付きプロジェクションフリーなメタベース学習アルゴリズムを提案する。
私たちは、自律的なエージェントが時間によって変化する環境に適応する必要がある人工知能アプリケーションによって動機付けられています。
論文 参考訳(メタデータ) (2023-01-02T01:12:29Z) - Adaptivity and Non-stationarity: Problem-dependent Dynamic Regret for Online Convex Optimization [70.4342220499858]
本稿では,スムーズさを生かし,問題依存量による動的後悔のT$への依存を補う新しいオンラインアルゴリズムを提案する。
この結果が本質的な難易度に適応しているのは, 既往の結果よりも厳密であり, 最悪の場合, 同一レートの保護が可能であるからである。
論文 参考訳(メタデータ) (2021-12-29T02:42:59Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z) - Dynamic Regret of Convex and Smooth Functions [93.71361250701075]
非定常環境におけるオンライン凸最適化について検討する。
パフォーマンス指標として動的後悔を選択します。
本研究では, 滑らかさを活かして, 動的後悔をさらに高めることが可能であることを示す。
論文 参考訳(メタデータ) (2020-07-07T14:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。