論文の概要: Near-Optimal Reward-Free Exploration for Linear Mixture MDPs with
Plug-in Solver
- arxiv url: http://arxiv.org/abs/2110.03244v2
- Date: Fri, 8 Oct 2021 01:49:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-11 11:55:48.688121
- Title: Near-Optimal Reward-Free Exploration for Linear Mixture MDPs with
Plug-in Solver
- Title(参考訳): プラグインソルバを用いた線形混合mdpの至適報酬フリー探索
- Authors: Xiaoyu Chen, Jiachen Hu, Lin F. Yang, Liwei Wang
- Abstract要約: 報酬信号のガイダンスを使わずにRLモデルを効率的に学習するためのアプローチを提案する。
特に、私たちは、探索フェーズにおけるモデル学習に集中するプラグインソルバアプローチを採用しています。
新たな探索アルゴリズムを確立することで,プラグインアプローチは環境との相互作用を$tildeO(d2H3/epsilon2)$とすることでモデルを学習することを示す。
- 参考スコア(独自算出の注目度): 32.212146650873194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although model-based reinforcement learning (RL) approaches are considered
more sample efficient, existing algorithms are usually relying on sophisticated
planning algorithm to couple tightly with the model-learning procedure. Hence
the learned models may lack the ability of being re-used with more specialized
planners. In this paper we address this issue and provide approaches to learn
an RL model efficiently without the guidance of a reward signal. In particular,
we take a plug-in solver approach, where we focus on learning a model in the
exploration phase and demand that \emph{any planning algorithm} on the learned
model can give a near-optimal policy. Specicially, we focus on the linear
mixture MDP setting, where the probability transition matrix is a (unknown)
convex combination of a set of existing models. We show that, by establishing a
novel exploration algorithm, the plug-in approach learns a model by taking
$\tilde{O}(d^2H^3/\epsilon^2)$ interactions with the environment and \emph{any}
$\epsilon$-optimal planner on the model gives an $O(\epsilon)$-optimal policy
on the original model. This sample complexity matches lower bounds for
non-plug-in approaches and is \emph{statistically optimal}. We achieve this
result by leveraging a careful maximum total-variance bound using Bernstein
inequality and properties specified to linear mixture MDP.
- Abstract(参考訳): モデルベース強化学習(rl)アプローチはよりサンプル効率が高いと考えられているが、既存のアルゴリズムは通常、モデル学習手順と密に結合する洗練された計画アルゴリズムに依存している。
したがって、学習したモデルは、より専門的なプランナーで再使用される能力に欠ける可能性がある。
本稿では,この問題に対処し,報酬信号の誘導なしにRLモデルを効率的に学習するためのアプローチを提案する。
特に,探索段階におけるモデル学習に焦点をあて,学習モデル上での 'emph{any planning algorithm' が,ほぼ最適ポリシーを実現できることを要求するプラグインソルバアプローチを採用する。
具体的には、確率遷移行列が既存のモデルの集合の(未知の)凸結合である線形混合MDP設定に焦点を当てる。
新しい探索アルゴリズムを確立することで、プラグインアプローチは環境との相互作用を$\tilde{o}(d^2h^3/\epsilon^2) とし、モデル上で$\epsilon$-optimal planner が$o(\epsilon)$-optimalポリシーを元のモデルに与えてモデルを学ぶ。
このサンプル複雑性は非プラグインアプローチの下限に一致し、 \emph{statistically optimal} である。
本研究では, ベルンシュタイン不等式と線形混合mdpに指定された性質を用いて, 注意深い最大全分散境界を用いることにより, この結果を得る。
関連論文リスト
- The Plug-in Approach for Average-Reward and Discounted MDPs: Optimal Sample Complexity Analysis [6.996002801232415]
平均回帰マルコフ決定過程において,$varepsilon$-optimal Policyを学習するためのプラグインアプローチのサンプル複雑性について検討した。
この問題の最も単純なアルゴリズムであるにもかかわらず、プラグインのアプローチは理論上は分析されていない。
論文 参考訳(メタデータ) (2024-10-10T05:08:14Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Optimal Horizon-Free Reward-Free Exploration for Linear Mixture MDPs [60.40452803295326]
線形マルコフ決定過程(MDP)を学習するための新たな報酬なしアルゴリズムを提案する。
我々のアルゴリズムの核心は、探索駆動の擬似回帰を用いた不確実性重み付き値目標回帰である。
我々のアルゴリズムは$tilde O(d2varepsilon-2)$ episodesを探索するだけで、$varepsilon$-optimal policyを見つけることができる。
論文 参考訳(メタデータ) (2023-03-17T17:53:28Z) - Online Model Selection for Reinforcement Learning with Function
Approximation [50.008542459050155]
我々は、$tildeO(L5/6 T2/3)$ regretで最適な複雑性に適応するメタアルゴリズムを提案する。
また、メタアルゴリズムは、インスタンス依存の後悔境界を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-11-19T10:00:54Z) - Is Plug-in Solver Sample-Efficient for Feature-based Reinforcement
Learning? [30.065091907118827]
本研究は,マルコフ決定過程(MDP)における$epsilon$-optimal Policyの発見の複雑さについて考察する。
実験モデルを構築し,任意のプラグインソルバを用いて実験モデルを計画するプラグインソルバ手法を用いてこの問題を解決する。
プラグインアプローチはサンプル効率も向上し,強化学習のためのモデルベースアルゴリズムを設計するための柔軟なアプローチを提供する。
論文 参考訳(メタデータ) (2020-10-12T13:13:01Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z) - A Model-free Learning Algorithm for Infinite-horizon Average-reward MDPs
with Near-optimal Regret [44.374427255708135]
無限水平平均逆マルコフ決定過程(MDP)のモデルフリーアルゴリズムである探索強化Q-ラーニング(EE-QL)を提案する。
EE-QLは、最適平均報酬のオンライン集中近似が利用可能であると仮定する。
これは、エルゴード的な仮定なしに$O(sqrt T)$後悔を達成する最初のモデル自由学習アルゴリズムであり、対数的因子を除いて、下位境界の$T$と一致する。
論文 参考訳(メタデータ) (2020-06-08T05:09:32Z) - Learning Gaussian Graphical Models via Multiplicative Weights [54.252053139374205]
乗算重み更新法に基づいて,Klivans と Meka のアルゴリズムを適用した。
アルゴリズムは、文献の他のものと質的に類似したサンプル複雑性境界を楽しみます。
ランタイムが低い$O(mp2)$で、$m$サンプルと$p$ノードの場合には、簡単にオンライン形式で実装できる。
論文 参考訳(メタデータ) (2020-02-20T10:50:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。