論文の概要: Model-based RL as a Minimalist Approach to Horizon-Free and Second-Order Bounds
- arxiv url: http://arxiv.org/abs/2408.08994v1
- Date: Fri, 16 Aug 2024 19:52:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 23:06:45.904670
- Title: Model-based RL as a Minimalist Approach to Horizon-Free and Second-Order Bounds
- Title(参考訳): 水平・二次境界に対するミニマリストアプローチとしてのモデルベースRL
- Authors: Zhiyong Wang, Dongruo Zhou, John C. S. Lui, Wen Sun,
- Abstract要約: 簡単なモデルベース強化学習方式は,オンラインとオフラインの設定において,強い後悔とサンプル境界を実現する。
我々は、我々のアルゴリズムは比較的標準的なものであり、文献で広く研究されていることを強調した。
- 参考スコア(独自算出の注目度): 59.875550175217874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning a transition model via Maximum Likelihood Estimation (MLE) followed by planning inside the learned model is perhaps the most standard and simplest Model-based Reinforcement Learning (RL) framework. In this work, we show that such a simple Model-based RL scheme, when equipped with optimistic and pessimistic planning procedures, achieves strong regret and sample complexity bounds in online and offline RL settings. Particularly, we demonstrate that under the conditions where the trajectory-wise reward is normalized between zero and one and the transition is time-homogenous, it achieves horizon-free and second-order bounds. Horizon-free means that our bounds have no polynomial dependence on the horizon of the Markov Decision Process. A second-order bound is a type of instance-dependent bound that scales with respect to the variances of the returns of the policies which can be small when the system is nearly deterministic and (or) the optimal policy has small values. We highlight that our algorithms are simple, fairly standard, and indeed have been extensively studied in the RL literature: they learn a model via MLE, build a version space around the MLE solution, and perform optimistic or pessimistic planning depending on whether operating in the online or offline mode. These algorithms do not rely on additional specialized algorithmic designs such as learning variances and performing variance-weighted learning and thus can leverage rich function approximations that are significantly beyond linear or tabular structures. The simplicity of the algorithms also implies that our horizon-free and second-order regret analysis is actually standard and mainly follows the general framework of optimism/pessimism in the face of uncertainty.
- Abstract(参考訳): MLE(Maximum Likelihood Estimation)を通じて移行モデルを学習し、学習モデル内で計画を行うことは、おそらく最も標準的で、最もシンプルなモデルベース強化学習(RL)フレームワークである。
本研究では,楽観的で悲観的な計画手順を備えたモデルベースRLスキームが,オンラインとオフラインのRL設定において,強い後悔とサンプルの複雑さの境界を達成できることを示す。
特に、軌道的報酬が0と1の間で正規化され、遷移が時間的均質である条件下では、地平線フリーおよび二階境界を達成することを実証する。
水平自由とは、我々の境界はマルコフ決定過程の地平線に多項式依存を持たないことを意味する。
2階境界(英: second-order bound)は、システムがほぼ決定論的であるときに小さくなり得るポリシーの戻り値の分散に関してスケールする、インスタンス依存境界の一種である。
我々のアルゴリズムは単純で、かなり標準的なものであり、実際にRLの文献で広く研究されている:彼らはMLEを通してモデルを学習し、MLEソリューションの周りにバージョン空間を構築し、オンラインモードかオフラインモードかによって楽観的または悲観的な計画を実行する。
これらのアルゴリズムは、分散学習や分散重み付け学習などの特別なアルゴリズム設計に頼らず、線形構造や表構造をはるかに超越したリッチ関数近似を利用することができる。
アルゴリズムの単純さは、地平線のない、2階の後悔分析が実際には標準であり、主に不確実性に直面した楽観主義/悲観主義の一般的な枠組みに従うことを示唆している。
関連論文リスト
- Offline RL via Feature-Occupancy Gradient Ascent [9.983014605039658]
大規模無限水平割引マルコフ決定過程(MDP)におけるオフライン強化学習の研究
我々は,特徴占有空間における勾配上昇の形式を実行する新しいアルゴリズムを開発した。
結果として得られた単純なアルゴリズムは、強い計算とサンプルの複雑さの保証を満たすことを示す。
論文 参考訳(メタデータ) (2024-05-22T15:39:05Z) - Oracle Inequalities for Model Selection in Offline Reinforcement
Learning [105.74139523696284]
本稿では,値関数近似を用いたオフラインRLにおけるモデル選択の問題について検討する。
対数係数まで最小値の速度-最適不等式を実現するオフラインRLの最初のモデル選択アルゴリズムを提案する。
そこで本研究では,優れたモデルクラスを確実に選択できることを示す数値シミュレーションを行った。
論文 参考訳(メタデータ) (2022-11-03T17:32:34Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Provable Model-based Nonlinear Bandit and Reinforcement Learning: Shelve
Optimism, Embrace Virtual Curvature [61.22680308681648]
決定論的報酬を有する1層ニューラルネットバンディットにおいても,グローバル収束は統計的に難解であることを示す。
非線形バンディットとRLの両方に対して,オンラインモデル学習者による仮想アセンジ(Virtual Ascent with Online Model Learner)というモデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-08T12:41:56Z) - Policy Gradient Methods for the Noisy Linear Quadratic Regulator over a
Finite Horizon [3.867363075280544]
線形2次レギュレータ(LQR)問題における最適ポリシーを見つけるための強化学習法について検討する。
我々は、有限時間地平線と弱い仮定の下での状態ダイナミクスの設定に対する大域的線形収束を保証する。
基礎となるダイナミクスのモデルを仮定し、データに直接メソッドを適用する場合の結果を示す。
論文 参考訳(メタデータ) (2020-11-20T09:51:49Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。