論文の概要: Reinforcement Learning with Probabilistically Complete Exploration
- arxiv url: http://arxiv.org/abs/2001.06940v1
- Date: Mon, 20 Jan 2020 02:11:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-08 05:13:51.435117
- Title: Reinforcement Learning with Probabilistically Complete Exploration
- Title(参考訳): 確率的完全探索による強化学習
- Authors: Philippe Morere, Gilad Francis, Tom Blau, Fabio Ramos
- Abstract要約: 素早いランダム探索型強化学習(R3L)を提案する。
探索問題を探索問題として定式化し、初期解を見つけるために広く利用されている計画アルゴリズムを活用する。
本手法を実験的に実証し,少数の探査サンプルを必要とせず,性能が向上した。
- 参考スコア(独自算出の注目度): 27.785017885906313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Balancing exploration and exploitation remains a key challenge in
reinforcement learning (RL). State-of-the-art RL algorithms suffer from high
sample complexity, particularly in the sparse reward case, where they can do no
better than to explore in all directions until the first positive rewards are
found. To mitigate this, we propose Rapidly Randomly-exploring Reinforcement
Learning (R3L). We formulate exploration as a search problem and leverage
widely-used planning algorithms such as Rapidly-exploring Random Tree (RRT) to
find initial solutions. These solutions are used as demonstrations to
initialize a policy, then refined by a generic RL algorithm, leading to faster
and more stable convergence. We provide theoretical guarantees of R3L
exploration finding successful solutions, as well as bounds for its sampling
complexity. We experimentally demonstrate the method outperforms classic and
intrinsic exploration techniques, requiring only a fraction of exploration
samples and achieving better asymptotic performance.
- Abstract(参考訳): 探究と搾取のバランスをとることは、強化学習(RL)における重要な課題である。
最先端のRLアルゴリズムは、特にスパース報酬の場合、第1の正の報酬が見つかるまで全方向を探索することしかできないような、高いサンプル複雑さに悩まされている。
これを軽減するために,R3L(Rapidly Randomly-Exploring Reinforcement Learning)を提案する。
探索問題を探索問題として定式化し,RRT(Rapidly-Exploring Random Tree)などの計画アルゴリズムを用いて初期解を求める。
これらの解はポリシーを初期化するためのデモとして使われ、その後汎用RLアルゴリズムによって洗練され、より速くより安定した収束をもたらす。
我々は、R3L探索が成功する解を見つけることの理論的保証と、そのサンプリング複雑性の限界を提供する。
実験により,本手法は古典的,本質的な探査技術より優れており,少数の探索サンプルが必要であり,漸近的性能が向上することを示した。
関連論文リスト
- Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - More Efficient Randomized Exploration for Reinforcement Learning via Approximate Sampling [41.21199687865359]
最近提案されたFeel-Good Thompson Sampling (FGTS) アプローチを用いて,様々な近似サンプリング手法を組み込んだアルゴリズムフレームワークを提案する。
我々の後悔分析は、既存のランダム化アルゴリズムを超越した次元性への後悔の最もよく知られた依存性をもたらす。
我々のアルゴリズムは、RLの深い文献から得られる他の強いベースラインに匹敵する、あるいは同等の性能を達成する。
論文 参考訳(メタデータ) (2024-06-18T03:32:10Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Learning from Demonstration without Demonstrations [5.027571997864707]
本稿では,専門家にアクセスせずにデモンストレーションを自動的に発見する手法として,実証発見のための確率的計画法(P2D2)を提案する。
本研究では,探索問題として実演の発見を定式化し,高速探索型ランダムツリーなどの広く利用されている計画アルゴリズムを活用して,実演軌跡の探索を行う。
本手法は,古典的かつ本質的な探査RL技術よりも,古典的な制御やロボット工学のタスクに優れることを示す。
論文 参考訳(メタデータ) (2021-06-17T01:57:08Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - Active Finite Reward Automaton Inference and Reinforcement Learning
Using Queries and Counterexamples [31.31937554018045]
深部強化学習(RL)法は, 良好な性能を達成するために, 環境探索からの集中的なデータを必要とする。
本稿では,RLエージェントが探索過程を推論し,その将来的な探索を効果的に導くための高レベルの知識を蒸留するフレームワークを提案する。
具体的には、L*学習アルゴリズムを用いて、有限報酬オートマトンという形で高レベルの知識を学習する新しいRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-28T21:13:08Z) - Provably Efficient Exploration for Reinforcement Learning Using
Unsupervised Learning [96.78504087416654]
強化学習(RL)問題における効率的な探索に教師なし学習を用い,本パラダイムが有効であるかどうかを考察する。
本稿では,教師なし学習アルゴリズムと非線形表RLアルゴリズムという,2つのコンポーネント上に構築された汎用的なアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-15T19:23:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。