論文の概要: Continual Learning In Environments With Polynomial Mixing Times
- arxiv url: http://arxiv.org/abs/2112.07066v1
- Date: Mon, 13 Dec 2021 23:41:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-16 06:08:21.903697
- Title: Continual Learning In Environments With Polynomial Mixing Times
- Title(参考訳): 多項式混合時間環境における連続学習
- Authors: Matthew Riemer, Sharath Chandra Raparthy, Ignacio Cases, Gopeshh
Subbaraj, Maximilian Puelma Touzel and Irina Rish
- Abstract要約: 連続的強化学習における混合時間の影響について検討した。
平均報酬を直接最適化することで学習を高速化するモデルベースアルゴリズムのファミリーを提案する。
- 参考スコア(独自算出の注目度): 13.533984338434106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The mixing time of the Markov chain induced by a policy limits performance in
real-world continual learning scenarios. Yet, the effect of mixing times on
learning in continual reinforcement learning (RL) remains underexplored. In
this paper, we characterize problems that are of long-term interest to the
development of continual RL, which we call scalable MDPs, through the lens of
mixing times. In particular, we establish that scalable MDPs have mixing times
that scale polynomially with the size of the problem. We go on to demonstrate
that polynomial mixing times present significant difficulties for existing
approaches and propose a family of model-based algorithms that speed up
learning by directly optimizing for the average reward through a novel
bootstrapping procedure. Finally, we perform empirical regret analysis of our
proposed approaches, demonstrating clear improvements over baselines and also
how scalable MDPs can be used for analysis of RL algorithms as mixing times
scale.
- Abstract(参考訳): ポリシーによって引き起こされるマルコフ連鎖の混合時間は、実世界の連続学習シナリオのパフォーマンスを制限する。
しかし,連続強化学習(rl)における混合時間の影響は未検討のままである。
本稿では、混合時間のレンズを通して、スケーラブルなMDPと呼ばれる連続RLの開発に長期的な関心を持つ問題を特徴づける。
特に,拡張性のあるmdpは,問題の大きさに応じて多項式的にスケールする混合時間を持つ。
さらに,既存の手法では多項式混合時間が大きな困難をもたらすことを実証し,新しいブートストラップ法によって平均報酬に対して直接最適化することで学習を高速化するモデルベースアルゴリズムのファミリを提案する。
最後に,提案手法の試行錯誤分析を行い,ベースラインよりも明確な改善と,RLアルゴリズムを混合時間スケールとしていかに拡張可能なMDPを利用できるかを示した。
関連論文リスト
- Near-Optimal Learning and Planning in Separated Latent MDPs [70.88315649628251]
我々は、潜在マルコフ決定過程(LMDP)の計算的および統計的側面について研究する。
このモデルでは、学習者は、未知のMDPの混合から各エポックの開始時に描画されたMDPと相互作用する。
論文 参考訳(メタデータ) (2024-06-12T06:41:47Z) - Towards Global Optimality for Practical Average Reward Reinforcement Learning without Mixing Time Oracles [83.85151306138007]
Multi-level Actor-Critic (MAC) フレームワークには、MLMC (Multi-level Monte-Carlo) 推定器が組み込まれている。
MACは、平均報酬設定において、既存の最先端ポリシーグラデーションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-18T16:23:47Z) - Efficient Exploration in Continuous-time Model-based Reinforcement
Learning [37.14026153342745]
強化学習アルゴリズムは典型的には離散時間力学を考察するが、基礎となるシステムは時間的に連続していることが多い。
連続時間力学を表すモデルに基づく強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-30T15:04:40Z) - A Multi-Scale Decomposition MLP-Mixer for Time Series Analysis [14.40202378972828]
そこで我々は,MSD-Mixerを提案する。MSD-Mixerは,各レイヤの入力時系列を明示的に分解し,表現することを学ぶマルチスケール分解ミクサーである。
我々は,MSD-Mixerが他の最先端のアルゴリズムよりも効率よく優れていることを示す。
論文 参考訳(メタデータ) (2023-10-18T13:39:07Z) - Beyond Exponentially Fast Mixing in Average-Reward Reinforcement
Learning via Multi-Level Monte Carlo Actor-Critic [61.968469104271676]
本稿では,アクター・アクターとアクター・アクター・アクター・アルゴリズムに埋め込まれた平均報酬に対して,マルチレベルモンテカルロ推定器を用いて混合時間に適応したRL手法を提案する。
不安定な報酬を伴うRL問題において,安定性に要求される技術的条件の緩和効果が,実用上優れた性能に変換されることを実験的に示す。
論文 参考訳(メタデータ) (2023-01-28T04:12:56Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - A Kernel-Based Approach to Non-Stationary Reinforcement Learning in
Metric Spaces [53.47210316424326]
KeRNSは、非定常マルコフ決定過程におけるエピソード強化学習のためのアルゴリズムである。
我々は、状態-作用空間の被覆次元と時間とともにMDPの総変動にスケールする後悔境界を証明した。
論文 参考訳(メタデータ) (2020-07-09T21:37:13Z) - Robust Inverse Reinforcement Learning under Transition Dynamics Mismatch [60.23815709215807]
本研究では,逆強化学習(IRL)問題について,専門家と学習者間の遷移力学ミスマッチの下で検討する。
本稿では,このミスマッチを支援するための基本手法として,ロバストなMCE IRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-02T14:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。