論文の概要: Reinforcement Learning for Non-Stationary Markov Decision Processes: The
Blessing of (More) Optimism
- arxiv url: http://arxiv.org/abs/2006.14389v1
- Date: Wed, 24 Jun 2020 15:40:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 09:42:43.771987
- Title: Reinforcement Learning for Non-Stationary Markov Decision Processes: The
Blessing of (More) Optimism
- Title(参考訳): 非定常マルコフ決定過程に対する強化学習--(さらに)楽観主義の祝福
- Authors: Wang Chi Cheung, David Simchi-Levi, Ruihao Zhu
- Abstract要約: 非定常条件下でのマルコフ決定過程(MDP)におけるRL(un-discounted reinforcement learning)について考察する。
まず, 信頼性拡張学習(SWUCRL2-CW) アルゴリズムを用いて, Sliding Window Up-Confidence bound for Reinforcement Learning with Confidence Widening (SWUCRL2-CW) を提案する。
SWUCRL2-CWアルゴリズムを適応的に調整し,同じダイナミックなリセット境界を実現するBORLアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 25.20231604057821
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider un-discounted reinforcement learning (RL) in Markov decision
processes (MDPs) under drifting non-stationarity, i.e., both the reward and
state transition distributions are allowed to evolve over time, as long as
their respective total variations, quantified by suitable metrics, do not
exceed certain variation budgets. We first develop the Sliding Window
Upper-Confidence bound for Reinforcement Learning with Confidence Widening
(SWUCRL2-CW) algorithm, and establish its dynamic regret bound when the
variation budgets are known. In addition, we propose the
Bandit-over-Reinforcement Learning (BORL) algorithm to adaptively tune the
SWUCRL2-CW algorithm to achieve the same dynamic regret bound, but in a
parameter-free manner, i.e., without knowing the variation budgets. Notably,
learning non-stationary MDPs via the conventional optimistic exploration
technique presents a unique challenge absent in existing (non-stationary)
bandit learning settings. We overcome the challenge by a novel confidence
widening technique that incorporates additional optimism.
- Abstract(参考訳): 非定常条件下でのマルコフ決定過程(MDP)におけるRL(un-discounted reinforcement learning)を考察する。すなわち、それぞれの総変動が適切な指標によって定量化される限り、報酬と状態遷移の分布は時間とともに進化することが許される。
まず,信頼度拡大(swucrl2-cw)アルゴリズムを用いた強化学習のためのスライディングウィンドウ上信頼度バウンドを開発し,変動予算が分かっている場合にその動的後悔バウンドを確立する。
さらに,swucrl2-cwアルゴリズムを適応的にチューニングし,同じ動的後悔境界を達成するためのバンドイットオーバー強化学習(borl)アルゴリズムを提案する。
特に,従来の楽観的探索手法による非定常的MDPの学習は,既存の(静止的でない)バンドレート学習環境に存在しないユニークな課題を示す。
我々は、さらなる楽観主義を組み込んだ新しい信頼拡大技術によって、この課題を克服する。
関連論文リスト
- Meta-Learning Adversarial Bandit Algorithms [55.72892209124227]
我々は,バンディットフィードバックを用いたオンラインメタラーニングについて研究する。
我々は自己協和障壁正規化器を用いてオンラインミラー降下一般化(OMD)をチューニングすることを学ぶ。
論文 参考訳(メタデータ) (2023-07-05T13:52:10Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Variance-Dependent Regret Bounds for Linear Bandits and Reinforcement
Learning: Adaptivity and Computational Efficiency [90.40062452292091]
本稿では,不整合雑音を持つ線形帯域に対する計算効率のよい最初のアルゴリズムを提案する。
我々のアルゴリズムは未知のノイズの分散に適応し、$tildeO(d sqrtsum_k = 1K sigma_k2 + d)$ regretを達成する。
また、強化学習において、線形混合マルコフ決定過程(MDP)に対する分散適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-21T00:17:24Z) - Non-stationary Risk-sensitive Reinforcement Learning: Near-optimal
Dynamic Regret, Adaptive Detection, and Separation Design [9.554944575754638]
エピソード非定常マルコフ決定過程(MDP)におけるエントロピー的リスク尺度に基づくリスク感受性強化学習(RL)について検討する。
本稿では,再起動型アルゴリズムであるRestart-RSMBとRestart-RSQを提案する。
この研究は、文献における非定常リスク感受性RLに対する最初の非漸近的理論解析を提供する。
論文 参考訳(メタデータ) (2022-11-19T22:40:09Z) - Opportunistic Episodic Reinforcement Learning [9.364712393700056]
機会論的強化学習(英: opportunistic reinforcement learning)は、変分因子として知られる外部環境条件下で、最適な行動を選択することの後悔が変化する強化学習の新たな変種である。
我々の直感は、変動係数が高いときにさらに活用し、変動係数が低いときにさらに探索することである。
我々のアルゴリズムは、探索をガイドするために変動係数に依存した楽観性を導入することで、強化学習のための探索・探索トレードオフのバランスをとる。
論文 参考訳(メタデータ) (2022-10-24T18:02:33Z) - Fundamental Limits of Reinforcement Learning in Environment with
Endogeneous and Exogeneous Uncertainty [5.117030416610515]
オンライン強化学習(RL)は情報処理のシナリオに広く応用されている。
一般のマルコフ決定過程(MDP)において、不均一なRLを内在的および外在的不確実性とみなす。
我々は、文献の最新の結果と比較して、少なくとも$sqrtS$または$Sfrac16Tfrac112$で保存の後悔の限界を確立する。
論文 参考訳(メタデータ) (2021-06-15T22:57:45Z) - Low-Precision Reinforcement Learning [63.930246183244705]
教師付き学習における計算時間、メモリフットプリント、エネルギー消費を減らすために、低精度トレーニングが一般的なアプローチになっている。
本稿では,最先端のsacエージェントを用いた継続的制御について検討し,教師あり学習による低精度適応が失敗することを実証する。
論文 参考訳(メタデータ) (2021-02-26T16:16:28Z) - Nonstationary Reinforcement Learning with Linear Function Approximation [24.910327525332463]
ドリフト環境下での線形関数近似によるマルコフ決定過程(MDP)における強化学習について考察する。
我々はまず、$textttLSVI-UCB-Restart$アルゴリズムを開発し、変動予算が分かっている場合にその動的後悔境界を確立する。
次にパラメータフリーアルゴリズムである$textttAda-LSVI-UCB-Restart$を提案する。
論文 参考訳(メタデータ) (2020-10-08T20:07:44Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。