論文の概要: One Policy is Enough: Parallel Exploration with a Single Policy is
Minimax Optimal for Reward-Free Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2205.15891v1
- Date: Tue, 31 May 2022 15:41:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 16:52:54.837753
- Title: One Policy is Enough: Parallel Exploration with a Single Policy is
Minimax Optimal for Reward-Free Reinforcement Learning
- Title(参考訳): 1つのポリシーは十分である:単一ポリシーによる並列探索は報酬のない強化学習に最適である
- Authors: Pedro Cisneros-Velarde and Boxiang Lyu and Sanmi Koyejo and Mladen
Kolar
- Abstract要約: すべてのエージェントの探索を単一のポリシーでガイドすることは、ほぼ直線的なスピードアップを得るのに十分であることを示す。
この単純な手順は、リニアMDPと2プレーヤゼロサムMGの両方の報酬のない設定において、対数的要素に最適化される。
- 参考スコア(独自算出の注目度): 20.57852376676345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While parallelism has been extensively used in Reinforcement Learning (RL),
the quantitative effects of parallel exploration are not well understood
theoretically. We study the benefits of simple parallel exploration for
reward-free RL for linear Markov decision processes (MDPs) and two-player
zero-sum Markov games (MGs). In contrast to the existing literature focused on
approaches that encourage agents to explore over a diverse set of policies, we
show that using a single policy to guide exploration across all agents is
sufficient to obtain an almost-linear speedup in all cases compared to their
fully sequential counterpart. Further, we show that this simple procedure is
minimax optimal up to logarithmic factors in the reward-free setting for both
linear MDPs and two-player zero-sum MGs. From a practical perspective, our
paper shows that a single policy is sufficient and provably optimal for
incorporating parallelism during the exploration phase.
- Abstract(参考訳): 並列性は強化学習(RL)で広く用いられているが、並列探索の定量的効果は理論的にはよく理解されていない。
本稿では,リニアマルコフ決定過程 (MDP) と2プレーヤゼロサムマルコフゲーム (MG) において,報酬のないRLに対する単純な並列探索の利点について検討する。
エージェントが多様なポリシーを探索することを奨励するアプローチに焦点をあてた既存の文献とは対照的に、すべてのエージェントを探索するために単一のポリシーを使用することで、完全なシーケンシャルなアプローチと比較してほぼ直線的なスピードアップが得られることを示す。
さらに,この簡単な手順は,リニアmdpと2プレーヤゼロサムmgsの報奨フリー設定において,対数係数に最適であることを示す。
実用の観点からは,探索段階において並列性を取り入れる上で,一つの政策が十分かつ確実に最適であることを示す。
関連論文リスト
- Randomized Exploration in Cooperative Multi-Agent Reinforcement Learning [15.46907000938726]
協調型マルチエージェント強化学習(MARL)における確率的ランダム化探索に関する最初の研究について述べる。
並列マルコフ決定過程(MDP)におけるランダム化探索のための統一されたアルゴリズムフレームワークと,2つのトンプソンサンプリング型アルゴリズムであるCoopTS-PHEとCoopTS-LMCを提案する。
提案手法は, 深層探査問題 (textiti.e.$N$-chain) , ビデオゲーム, エネルギーシステムにおける実世界の問題などを含む, 並列RL環境における提案手法の評価を行う。
論文 参考訳(メタデータ) (2024-04-16T17:01:38Z) - Hundreds Guide Millions: Adaptive Offline Reinforcement Learning with
Expert Guidance [74.31779732754697]
本稿では,GORL ( Guided Offline RL) という新しいプラグイン手法を提案する。
GORLは、いくつかの専門家によるデモンストレーションとともにガイドネットワークを使用し、各サンプルに対する政策改善と政策制約の相対的重要性を適応的に決定する。
様々な環境での実験により、GORLは統計的に有意な性能改善を伴い、ほとんどのオフラインRLアルゴリズムに容易にインストール可能であることが示唆された。
論文 参考訳(メタデータ) (2023-09-04T08:59:04Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Reward-Free RL is No Harder Than Reward-Aware RL in Linear Markov
Decision Processes [61.11090361892306]
Reward-free reinforcement learning (RL) は、エージェントが探索中に報酬関数にアクセスできないような環境を考える。
この分離は線形MDPの設定には存在しないことを示す。
我々は$d$次元線形 MDP における報酬のない RL に対する計算効率の良いアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-01-26T22:09:59Z) - MDPGT: Momentum-based Decentralized Policy Gradient Tracking [29.22173174168708]
マルチエージェント強化学習のための運動量に基づく分散型ポリシー勾配追跡(MDPGT)を提案する。
MDPGTは、グローバル平均の$N$ローカルパフォーマンス関数の$epsilon-stationaryポイントに収束するために$mathcalO(N-1epsilon-3)$の最良のサンプル複雑性を実現する。
これは、分散モデルレス強化学習における最先端のサンプル複雑さよりも優れています。
論文 参考訳(メタデータ) (2021-12-06T06:55:51Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z) - Ready Policy One: World Building Through Active Learning [35.358315617358976]
本稿では,モデルに基づく強化学習を積極的学習問題とみなすフレームワークであるReady Policy One(RP1)を紹介する。
RP1は、最適化中に重要な適応を行うハイブリッド目的関数を利用することで、これを実現する。
本手法を各種連続制御タスクにおいて厳密に評価し,既存手法に比べて統計的に有意な向上を示した。
論文 参考訳(メタデータ) (2020-02-07T09:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。