論文の概要: Reinforcement Learning in the Wild with Maximum Likelihood-based Model
Transfer
- arxiv url: http://arxiv.org/abs/2302.09273v1
- Date: Sat, 18 Feb 2023 09:47:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 19:32:45.787921
- Title: Reinforcement Learning in the Wild with Maximum Likelihood-based Model
Transfer
- Title(参考訳): 最大主観的モデル伝達を用いた野生における強化学習
- Authors: Hannes Eriksson, Debabrota Basu, Tommy Tram, Mina Alibeigi, Christos
Dimitrakakis
- Abstract要約: マルコフ決定過程 (MDP) モデルを未知の, 類似のMDPで効率的に学習し, 計画する問題について検討する。
離散的かつ連続的な設定で MTRL 問題に対処する汎用二段階アルゴリズム MLEMTRL を提案する。
我々は,MLEMTRLがスクラッチから学習するよりも新しいMDPの学習を高速化し,ほぼ最適性能を実現することを実証的に実証した。
- 参考スコア(独自算出の注目度): 5.92353064090273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study the problem of transferring the available Markov
Decision Process (MDP) models to learn and plan efficiently in an unknown but
similar MDP. We refer to it as \textit{Model Transfer Reinforcement Learning
(MTRL)} problem. First, we formulate MTRL for discrete MDPs and Linear
Quadratic Regulators (LQRs) with continuous state actions. Then, we propose a
generic two-stage algorithm, MLEMTRL, to address the MTRL problem in discrete
and continuous settings. In the first stage, MLEMTRL uses a \textit{constrained
Maximum Likelihood Estimation (MLE)}-based approach to estimate the target MDP
model using a set of known MDP models. In the second stage, using the estimated
target MDP model, MLEMTRL deploys a model-based planning algorithm appropriate
for the MDP class. Theoretically, we prove worst-case regret bounds for MLEMTRL
both in realisable and non-realisable settings. We empirically demonstrate that
MLEMTRL allows faster learning in new MDPs than learning from scratch and
achieves near-optimal performance depending on the similarity of the available
MDPs and the target MDP.
- Abstract(参考訳): 本稿では,利用可能なマルコフ決定過程(MDP)モデルを未知だが類似のMDPで効率的に学習し,計画する問題について検討する。
我々はそれを「textit{Model Transfer Reinforcement Learning (MTRL)」問題と呼ぶ。
まず、離散MDPとLQR(Linear Quadratic Regulator)のMTRLを連続状態動作で定式化する。
そこで本稿では,MTRL問題に離散的かつ連続的に対処する汎用2段階アルゴリズムMLEMTRLを提案する。
第1段階では、MLEMTRL は、既知の MDP モデルの集合を用いてターゲット MDP モデルを推定するために、 \textit{constrained Maximum Likelihood Estimation (MLE) に基づくアプローチを用いる。
第2段階では、推定対象MDPモデルを用いて、MLEMTRLは、MDPクラスに適したモデルベース計画アルゴリズムをデプロイする。
理論的には、MLEMTRLの最悪の後悔境界を現実的かつ非可逆的に証明する。
MLEMTRL はスクラッチから学習するよりも新しい MDP の学習を高速化し、利用可能な MDP とターゲット MDP の類似性に応じてほぼ最適性能を達成することを実証的に実証した。
関連論文リスト
- Value-Biased Maximum Likelihood Estimation for Model-based Reinforcement
Learning in Discounted Linear MDPs [16.006893624836554]
本稿では,VBMLE (Value-Biased Maximum Likelihood Estimation) のレンズによる線形MDPの解法を提案する。
VBMLEは、各時間ステップで1つの最適化問題だけを解決する必要があるため、計算的により効率的である。
後悔する解析では、線形MDPにおけるMLEの一般収束結果が、新しいスーパーマーチンゲール構造を通して提供される。
論文 参考訳(メタデータ) (2023-10-17T18:27:27Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Semi-Markov Offline Reinforcement Learning for Healthcare [57.15307499843254]
本稿では,SDQN,SDDQN,SBCQという3つのオフラインRLアルゴリズムを紹介する。
変動時間環境において,これらのアルゴリズムのみが最適ポリシーを学習できることを実験的に実証した。
我々は,脳卒中予防のためのウォーファリン投与に関連する実世界のオフラインデータセットに,我々の新しいアルゴリズムを適用した。
論文 参考訳(メタデータ) (2022-03-17T14:51:21Z) - Meta Learning MDPs with Linear Transition Models [22.508479528847634]
マルコフ決定過程 (MDP) におけるメタラーニングについて, 線形遷移モデルを用いて検討した。
本稿では,UC-Matrix RLアルゴリズムのバージョンであるBUC-MatrixRLを提案する。
BUC-Matrix RLは,タスクを個別に学習するのに比べて,高バイアス低分散タスク分布に対する伝達後悔の大幅な改善を提供する。
論文 参考訳(メタデータ) (2022-01-21T14:57:03Z) - Safe Exploration by Solving Early Terminated MDP [77.10563395197045]
我々は、Early TerminatedP(ET-MDP)の枠組みの下で、安全なRL問題に対処する新しいアプローチを導入する。
まず、ET-MDPを対応するCMDPと同じ最適値関数を持つ非制約アルゴリズムとして定義する。
そこで,文脈モデルに基づく非政治アルゴリズムを提案し,ET-MDPを解き,それに対応するCMDPをより良い性能で解き,学習効率を向上する。
論文 参考訳(メタデータ) (2021-07-09T04:24:40Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - RL for Latent MDPs: Regret Guarantees and a Lower Bound [74.41782017817808]
後期マルコフ決定過程(LMDP)における強化学習における後悔問題の検討
LMDPにおいて、M$可能なMDPのセットからMDPをランダムに描画するが、選択したMDPの同一性はエージェントに明らかにしない。
鍵となるリンクは、MDPシステムの力学の分離の概念であることを示す。
論文 参考訳(メタデータ) (2021-02-09T16:49:58Z) - MOReL : Model-Based Offline Reinforcement Learning [49.30091375141527]
オフライン強化学習(RL)では、環境との歴史的相互作用のデータセットのみに基づく高報酬政策を学習することが目的である。
モデルベースオフラインRLのためのアルゴリズムフレームワークMOReLを提案する。
オフラインRLベンチマークにおいてMOReLが最先端の結果と一致するか,あるいは超えるかを示す。
論文 参考訳(メタデータ) (2020-05-12T17:52:43Z) - On the Convergence Theory of Debiased Model-Agnostic Meta-Reinforcement
Learning [25.163423936635787]
強化学習(RL)問題に対するモデル非依存メタラーニング(MAML)手法を検討する。
我々は,SG-MRL(Gradient Meta-Reinforcement Learning)と呼ばれるMAML手法の変種を提案する。
我々はSG-MRLの反復とサンプルの複雑さを導出して$ilon$-first-orderの定常点を求める。
論文 参考訳(メタデータ) (2020-02-12T18:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。