論文の概要: Continual Learning In Environments With Polynomial Mixing Times
- arxiv url: http://arxiv.org/abs/2112.07066v1
- Date: Mon, 13 Dec 2021 23:41:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-16 06:08:21.903697
- Title: Continual Learning In Environments With Polynomial Mixing Times
- Title(参考訳): 多項式混合時間環境における連続学習
- Authors: Matthew Riemer, Sharath Chandra Raparthy, Ignacio Cases, Gopeshh
Subbaraj, Maximilian Puelma Touzel and Irina Rish
- Abstract要約: 連続的強化学習における混合時間の影響について検討した。
平均報酬を直接最適化することで学習を高速化するモデルベースアルゴリズムのファミリーを提案する。
- 参考スコア(独自算出の注目度): 13.533984338434106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The mixing time of the Markov chain induced by a policy limits performance in
real-world continual learning scenarios. Yet, the effect of mixing times on
learning in continual reinforcement learning (RL) remains underexplored. In
this paper, we characterize problems that are of long-term interest to the
development of continual RL, which we call scalable MDPs, through the lens of
mixing times. In particular, we establish that scalable MDPs have mixing times
that scale polynomially with the size of the problem. We go on to demonstrate
that polynomial mixing times present significant difficulties for existing
approaches and propose a family of model-based algorithms that speed up
learning by directly optimizing for the average reward through a novel
bootstrapping procedure. Finally, we perform empirical regret analysis of our
proposed approaches, demonstrating clear improvements over baselines and also
how scalable MDPs can be used for analysis of RL algorithms as mixing times
scale.
- Abstract(参考訳): ポリシーによって引き起こされるマルコフ連鎖の混合時間は、実世界の連続学習シナリオのパフォーマンスを制限する。
しかし,連続強化学習(rl)における混合時間の影響は未検討のままである。
本稿では、混合時間のレンズを通して、スケーラブルなMDPと呼ばれる連続RLの開発に長期的な関心を持つ問題を特徴づける。
特に,拡張性のあるmdpは,問題の大きさに応じて多項式的にスケールする混合時間を持つ。
さらに,既存の手法では多項式混合時間が大きな困難をもたらすことを実証し,新しいブートストラップ法によって平均報酬に対して直接最適化することで学習を高速化するモデルベースアルゴリズムのファミリを提案する。
最後に,提案手法の試行錯誤分析を行い,ベースラインよりも明確な改善と,RLアルゴリズムを混合時間スケールとしていかに拡張可能なMDPを利用できるかを示した。
関連論文リスト
- Markovletics: Methods and A Novel Application for Learning
Continuous-Time Markov Chain Mixtures [11.131861804842886]
連続時間マルコフ連鎖(CTMC)の学習混合物の研究
CTMCは、ソーシャルメディア、金融、生物学など、様々な分野で広く使われている複雑な連続的なプロセスをモデル化することができる。
我々はCTMCを探索する新しい枠組みを導入し、観測された軌跡の長さと混合パラメータが問題状態に与える影響を強調した。
3年間にわたるLastfmのユーザ生成パスの広範なコレクションにアルゴリズムを適用し、多様なユーザの好みを識別するアルゴリズムの能力を実証する。
論文 参考訳(メタデータ) (2024-02-27T18:04:59Z) - Age-Based Scheduling for Mobile Edge Computing: A Deep Reinforcement
Learning Approach [58.911515417156174]
我々は情報時代(AoI)の新たな定義を提案し、再定義されたAoIに基づいて、MECシステムにおけるオンラインAoI問題を定式化する。
本稿では,システム力学の部分的知識を活用するために,PDS(Post-Decision State)を導入する。
また、PSDと深いRLを組み合わせることで、アルゴリズムの適用性、スケーラビリティ、堅牢性をさらに向上します。
論文 参考訳(メタデータ) (2023-12-01T01:30:49Z) - Efficient Exploration in Continuous-time Model-based Reinforcement
Learning [37.14026153342745]
強化学習アルゴリズムは典型的には離散時間力学を考察するが、基礎となるシステムは時間的に連続していることが多い。
連続時間力学を表すモデルに基づく強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-30T15:04:40Z) - Beyond Exponentially Fast Mixing in Average-Reward Reinforcement
Learning via Multi-Level Monte Carlo Actor-Critic [61.968469104271676]
本稿では,アクター・アクターとアクター・アクター・アクター・アルゴリズムに埋め込まれた平均報酬に対して,マルチレベルモンテカルロ推定器を用いて混合時間に適応したRL手法を提案する。
不安定な報酬を伴うRL問題において,安定性に要求される技術的条件の緩和効果が,実用上優れた性能に変換されることを実験的に示す。
論文 参考訳(メタデータ) (2023-01-28T04:12:56Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Continuous-Time Model-Based Reinforcement Learning [4.427447378048202]
本稿では,新しいアクター・クリティック手法に基づく連続時間MBRLフレームワークを提案する。
我々は、連続時間制御システムを明確に解決する新しいODE-RLスイート上で、本手法を実装し、テストする。
論文 参考訳(メタデータ) (2021-02-09T11:30:19Z) - A Kernel-Based Approach to Non-Stationary Reinforcement Learning in
Metric Spaces [53.47210316424326]
KeRNSは、非定常マルコフ決定過程におけるエピソード強化学習のためのアルゴリズムである。
我々は、状態-作用空間の被覆次元と時間とともにMDPの総変動にスケールする後悔境界を証明した。
論文 参考訳(メタデータ) (2020-07-09T21:37:13Z) - Robust Inverse Reinforcement Learning under Transition Dynamics Mismatch [60.23815709215807]
本研究では,逆強化学習(IRL)問題について,専門家と学習者間の遷移力学ミスマッチの下で検討する。
本稿では,このミスマッチを支援するための基本手法として,ロバストなMCE IRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-02T14:57:13Z) - Meta Learning in the Continuous Time Limit [36.23467808322093]
モデルAメタラーニング(MAML)の学習力学の基礎となる常微分方程式(ODE)を確立する。
本稿では,既存のMAMLトレーニング手法に関連する計算負担を大幅に軽減するBI-MAMLトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-19T01:47:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。