論文の概要: Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration
- arxiv url: http://arxiv.org/abs/2305.18258v2
- Date: Wed, 25 Oct 2023 14:59:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 20:43:57.635853
- Title: Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration
- Title(参考訳): 探索の最大化:見積もり、計画、探索を融合した1つの目的関数
- Authors: Zhihan Liu, Miao Lu, Wei Xiong, Han Zhong, Hao Hu, Shenao Zhang, Sirui
Zheng, Zhuoran Yang, Zhaoran Wang
- Abstract要約: 我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
- 参考スコア(独自算出の注目度): 87.53543137162488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In online reinforcement learning (online RL), balancing exploration and
exploitation is crucial for finding an optimal policy in a sample-efficient
way. To achieve this, existing sample-efficient online RL algorithms typically
consist of three components: estimation, planning, and exploration. However, in
order to cope with general function approximators, most of them involve
impractical algorithmic components to incentivize exploration, such as
optimization within data-dependent level-sets or complicated sampling
procedures. To address this challenge, we propose an easy-to-implement RL
framework called \textit{Maximize to Explore} (\texttt{MEX}), which only needs
to optimize \emph{unconstrainedly} a single objective that integrates the
estimation and planning components while balancing exploration and exploitation
automatically. Theoretically, we prove that \texttt{MEX} achieves a sublinear
regret with general function approximations for Markov decision processes (MDP)
and is further extendable to two-player zero-sum Markov games (MG). Meanwhile,
we adapt deep RL baselines to design practical versions of \texttt{MEX}, in
both model-free and model-based manners, which can outperform baselines by a
stable margin in various MuJoCo environments with sparse rewards. Compared with
existing sample-efficient online RL algorithms with general function
approximations, \texttt{MEX} achieves similar sample efficiency while enjoying
a lower computational cost and is more compatible with modern deep RL methods.
- Abstract(参考訳): オンライン強化学習(オンラインRL)では、探索と搾取のバランスが、サンプル効率の良い方法で最適なポリシーを見つける上で重要である。
これを実現するために、既存のサンプル効率の高いオンラインRLアルゴリズムは通常、見積もり、計画、探索の3つのコンポーネントから構成される。
しかし、一般関数近似器に対処するためには、データ依存レベルセット内の最適化や複雑なサンプリング手順など、探索をインセンティブにする非現実的なアルゴリズムコンポーネントがほとんどである。
この課題に対処するために、我々は、探索と搾取を自動でバランスしながら、見積もりと計画コンポーネントを統合する単一の目的である \emph{unconstrainedly} を最適化するだけでよい \textit{maximize to explore} (\texttt{mex}) と呼ばれる実装が容易なrlフレームワークを提案する。
理論的には、<texttt{MEX} はマルコフ決定過程(MDP)の一般関数近似によるサブ線形後悔を達成し、さらに2プレイヤーゼロサムマルコフゲーム(MG)に拡張可能である。
一方、deep rlベースラインを適用して、モデルフリーとモデルベースのマナーの両方で、低報酬の様々なmujoco環境において、ベースラインを安定したマージンで上回ることができる、実践的なバージョンの \textt{mex}を設計する。
従来のサンプル効率のよいオンラインRLアルゴリズムと一般関数近似を比較して,より低い計算コストを享受しながら類似のサンプル効率を実現し,最新の深部RL手法との互換性が向上した。
関連論文リスト
- Offline RL via Feature-Occupancy Gradient Ascent [9.983014605039658]
大規模無限水平割引マルコフ決定過程(MDP)におけるオフライン強化学習の研究
我々は,特徴占有空間における勾配上昇の形式を実行する新しいアルゴリズムを開発した。
結果として得られた単純なアルゴリズムは、強い計算とサンプルの複雑さの保証を満たすことを示す。
論文 参考訳(メタデータ) (2024-05-22T15:39:05Z) - Efficient Multi-agent Reinforcement Learning by Planning [33.51282615335009]
マルチエージェント強化学習(MARL)アルゴリズムは、大規模意思決定タスクの解決において、目覚ましいブレークスルーを達成している。
既存のMARLアルゴリズムの多くはモデルフリーであり、サンプル効率を制限し、より困難なシナリオでの適用を妨げている。
政策探索のための集中型モデルとモンテカルロ木探索(MCTS)を組み合わせたMAZeroアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-20T04:36:02Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Regularization and Variance-Weighted Regression Achieves Minimax
Optimality in Linear MDPs: Theory and Practice [79.48432795639403]
ミラー降下値反復(MDVI)は、KL(Kulback-Leibler)とRL(Entropy-regularized reinforcement learning)の抽象化である。
MDVIを線形関数近似を用いて研究し,$varepsilon$-optimal policyを同定するために必要なサンプル複雑性について検討した。
我々は,無限水平線形MDPに対して,最小限のサンプル複雑性を実現する最初の理論的アルゴリズムである分散重み付き最小二乗法MDVIを提案する。
論文 参考訳(メタデータ) (2023-05-22T16:13:05Z) - Nearly Minimax Optimal Offline Reinforcement Learning with Linear
Function Approximation: Single-Agent MDP and Markov Game [34.69723238900705]
オフライン強化学習(RL)は、環境とのさらなる相互作用を伴わずに、事前コンパイルされたデータセットを使用して最適な戦略を学ぶことを目的としている。
オフライン単一エージェントMDPと2プレーヤゼロサムマルコフゲーム(MG)のための2つの新しいアルゴリズムを提案する。
我々の知る限り、これらは線形関数近似を用いたオフライン単エージェントMDPとMGのための計算効率が良く、最小に近い最適化アルゴリズムである。
論文 参考訳(メタデータ) (2022-05-31T02:50:17Z) - Towards Deployment-Efficient Reinforcement Learning: Lower Bound and
Optimality [141.89413461337324]
展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である
本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
論文 参考訳(メタデータ) (2022-02-14T01:31:46Z) - Reward-Free RL is No Harder Than Reward-Aware RL in Linear Markov
Decision Processes [61.11090361892306]
Reward-free reinforcement learning (RL) は、エージェントが探索中に報酬関数にアクセスできないような環境を考える。
この分離は線形MDPの設定には存在しないことを示す。
我々は$d$次元線形 MDP における報酬のない RL に対する計算効率の良いアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-01-26T22:09:59Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。
調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。
提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文 参考訳(メタデータ) (2021-06-18T17:57:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。