Fugu-MT 論文翻訳(概要): Continual Learning In Environments With Polynomial Mixing Times

論文の概要: Continual Learning In Environments With Polynomial Mixing Times

arxiv url: http://arxiv.org/abs/2112.07066v1
Date: Mon, 13 Dec 2021 23:41:56 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-16 06:08:21.903697
Title: Continual Learning In Environments With Polynomial Mixing Times
Title（参考訳）: 多項式混合時間環境における連続学習
Authors: Matthew Riemer, Sharath Chandra Raparthy, Ignacio Cases, Gopeshh Subbaraj, Maximilian Puelma Touzel and Irina Rish
Abstract要約: 連続的強化学習における混合時間の影響について検討した。平均報酬を直接最適化することで学習を高速化するモデルベースアルゴリズムのファミリーを提案する。
参考スコア（独自算出の注目度）: 13.533984338434106
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The mixing time of the Markov chain induced by a policy limits performance in real-world continual learning scenarios. Yet, the effect of mixing times on learning in continual reinforcement learning (RL) remains underexplored. In this paper, we characterize problems that are of long-term interest to the development of continual RL, which we call scalable MDPs, through the lens of mixing times. In particular, we establish that scalable MDPs have mixing times that scale polynomially with the size of the problem. We go on to demonstrate that polynomial mixing times present significant difficulties for existing approaches and propose a family of model-based algorithms that speed up learning by directly optimizing for the average reward through a novel bootstrapping procedure. Finally, we perform empirical regret analysis of our proposed approaches, demonstrating clear improvements over baselines and also how scalable MDPs can be used for analysis of RL algorithms as mixing times scale.
Abstract（参考訳）: ポリシーによって引き起こされるマルコフ連鎖の混合時間は、実世界の連続学習シナリオのパフォーマンスを制限する。しかし,連続強化学習(rl)における混合時間の影響は未検討のままである。本稿では、混合時間のレンズを通して、スケーラブルなMDPと呼ばれる連続RLの開発に長期的な関心を持つ問題を特徴づける。特に,拡張性のあるmdpは,問題の大きさに応じて多項式的にスケールする混合時間を持つ。さらに,既存の手法では多項式混合時間が大きな困難をもたらすことを実証し,新しいブートストラップ法によって平均報酬に対して直接最適化することで学習を高速化するモデルベースアルゴリズムのファミリを提案する。最後に,提案手法の試行錯誤分析を行い,ベースラインよりも明確な改善と,RLアルゴリズムを混合時間スケールとしていかに拡張可能なMDPを利用できるかを示した。

関連論文リスト

WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training [64.0932926819307]
本稿では,学習速度減衰とモデルマージの正式な関係を確立するフレームワークであるWarmup-Stable and Merge(WSM)を紹介する。 WSMは様々な崩壊戦略をエミュレートするための統一された理論基盤を提供する。私たちのフレームワークは、複数のベンチマークで広く採用されているWarmup-Stable-Decay(WSD)アプローチよりも一貫して優れています。
論文参考訳（メタデータ） (2025-07-23T16:02:06Z)
Near-Optimal Learning and Planning in Separated Latent MDPs [70.88315649628251]
我々は、潜在マルコフ決定過程(LMDP)の計算的および統計的側面について研究する。このモデルでは、学習者は、未知のMDPの混合から各エポックの開始時に描画されたMDPと相互作用する。
論文参考訳（メタデータ） (2024-06-12T06:41:47Z)
Towards Global Optimality for Practical Average Reward Reinforcement Learning without Mixing Time Oracles [83.85151306138007]
Multi-level Actor-Critic (MAC) フレームワークには、MLMC (Multi-level Monte-Carlo) 推定器が組み込まれている。 MACは、平均報酬設定において、既存の最先端ポリシーグラデーションベースの手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-03-18T16:23:47Z)
Efficient Exploration in Continuous-time Model-based Reinforcement Learning [37.14026153342745]
強化学習アルゴリズムは典型的には離散時間力学を考察するが、基礎となるシステムは時間的に連続していることが多い。連続時間力学を表すモデルに基づく強化学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-30T15:04:40Z)
A Multi-Scale Decomposition MLP-Mixer for Time Series Analysis [14.40202378972828]
そこで我々は,MSD-Mixerを提案する。MSD-Mixerは,各レイヤの入力時系列を明示的に分解し,表現することを学ぶマルチスケール分解ミクサーである。我々は,MSD-Mixerが他の最先端のアルゴリズムよりも効率よく優れていることを示す。
論文参考訳（メタデータ） (2023-10-18T13:39:07Z)
Beyond Exponentially Fast Mixing in Average-Reward Reinforcement Learning via Multi-Level Monte Carlo Actor-Critic [61.968469104271676]
本稿では,アクター・アクターとアクター・アクター・アクター・アルゴリズムに埋め込まれた平均報酬に対して,マルチレベルモンテカルロ推定器を用いて混合時間に適応したRL手法を提案する。不安定な報酬を伴うRL問題において,安定性に要求される技術的条件の緩和効果が,実用上優れた性能に変換されることを実験的に示す。
論文参考訳（メタデータ） (2023-01-28T04:12:56Z)
Imitating, Fast and Slow: Robust learning from demonstrations via decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。 IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-04-07T17:16:52Z)
A Kernel-Based Approach to Non-Stationary Reinforcement Learning in Metric Spaces [53.47210316424326]
KeRNSは、非定常マルコフ決定過程におけるエピソード強化学習のためのアルゴリズムである。我々は、状態-作用空間の被覆次元と時間とともにMDPの総変動にスケールする後悔境界を証明した。
論文参考訳（メタデータ） (2020-07-09T21:37:13Z)
Robust Inverse Reinforcement Learning under Transition Dynamics Mismatch [60.23815709215807]
本研究では,逆強化学習(IRL)問題について,専門家と学習者間の遷移力学ミスマッチの下で検討する。本稿では,このミスマッチを支援するための基本手法として,ロバストなMCE IRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-07-02T14:57:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。