論文の概要: Exploration by Maximizing R\'enyi Entropy for Reward-Free RL Framework
- arxiv url: http://arxiv.org/abs/2006.06193v3
- Date: Thu, 10 Dec 2020 15:16:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 09:43:52.321058
- Title: Exploration by Maximizing R\'enyi Entropy for Reward-Free RL Framework
- Title(参考訳): Reward-Free RLフレームワークのためのR\enyiエントロピーの最大化による探索
- Authors: Chuheng Zhang, Yuanying Cai, Longbo Huang, Jian Li
- Abstract要約: 我々は、搾取から探索を分離する報酬のない強化学習フレームワークを検討する。
探索段階において、エージェントは、報酬のない環境と相互作用して探索ポリシーを学習する。
計画段階では、エージェントはデータセットに基づいて報酬関数の適切なポリシーを算出する。
- 参考スコア(独自算出の注目度): 28.430845498323745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploration is essential for reinforcement learning (RL). To face the
challenges of exploration, we consider a reward-free RL framework that
completely separates exploration from exploitation and brings new challenges
for exploration algorithms. In the exploration phase, the agent learns an
exploratory policy by interacting with a reward-free environment and collects a
dataset of transitions by executing the policy. In the planning phase, the
agent computes a good policy for any reward function based on the dataset
without further interacting with the environment. This framework is suitable
for the meta RL setting where there are many reward functions of interest. In
the exploration phase, we propose to maximize the Renyi entropy over the
state-action space and justify this objective theoretically. The success of
using Renyi entropy as the objective results from its encouragement to explore
the hard-to-reach state-actions. We further deduce a policy gradient
formulation for this objective and design a practical exploration algorithm
that can deal with complex environments. In the planning phase, we solve for
good policies given arbitrary reward functions using a batch RL algorithm.
Empirically, we show that our exploration algorithm is effective and sample
efficient, and results in superior policies for arbitrary reward functions in
the planning phase.
- Abstract(参考訳): 強化学習(RL)には探索が不可欠である。
探索の課題に直面するためには,探索とエクスプロイトを完全に分離し,探索アルゴリズムに新たな課題をもたらす,報酬のないrlフレームワークを検討する。
探索段階において、エージェントは報酬のない環境と相互作用して探索ポリシーを学び、ポリシーを実行して遷移のデータセットを収集する。
計画段階では、エージェントは、さらに環境と相互作用することなくデータセットに基づいて報酬関数の適切なポリシーを算出する。
このフレームワークは、多くの報酬関数があるメタRL設定に適している。
探索段階では、状態-作用空間上のレーニーエントロピーを最大化し、理論的にこの目的を正当化する。
renyiエントロピーを目標とする成功は、到達しにくい状態行動の探求を奨励した結果である。
さらに,この目的に対する政策勾配の定式化を推定し,複雑な環境に対処可能な実用的な探索アルゴリズムを設計する。
計画段階では、バッチRLアルゴリズムを用いて任意の報酬関数を与えられた適切なポリシーを解く。
実験の結果,探索アルゴリズムは効果的でサンプル効率が良く,計画段階で任意の報酬関数に対して優れた方針が得られた。
関連論文リスト
- Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。
調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。
提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文 参考訳(メタデータ) (2021-06-18T17:57:00Z) - Efficient Exploration of Reward Functions in Inverse Reinforcement
Learning via Bayesian Optimization [43.51553742077343]
逆強化学習(IRL)は、価値アライメントやデモからのロボット学習など、さまざまなタスクに関係している。
本稿では,ベイズ最適化IRL(BO-IRL)と呼ばれるIRLフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-17T10:17:45Z) - Active Finite Reward Automaton Inference and Reinforcement Learning
Using Queries and Counterexamples [31.31937554018045]
深部強化学習(RL)法は, 良好な性能を達成するために, 環境探索からの集中的なデータを必要とする。
本稿では,RLエージェントが探索過程を推論し,その将来的な探索を効果的に導くための高レベルの知識を蒸留するフレームワークを提案する。
具体的には、L*学習アルゴリズムを用いて、有限報酬オートマトンという形で高レベルの知識を学習する新しいRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-28T21:13:08Z) - On Reward-Free Reinforcement Learning with Linear Function Approximation [144.4210285338698]
Reward-free reinforcement learning (RL) は、バッチRL設定と多くの報酬関数がある設定の両方に適したフレームワークである。
本研究では,線形関数近似を用いた報酬のないRLに対して,正と負の両方の結果を与える。
論文 参考訳(メタデータ) (2020-06-19T17:59:36Z) - Reward-Free Exploration for Reinforcement Learning [82.3300753751066]
探索の課題を分離する「逆フリーなRL」フレームワークを提案する。
我々は,$tildemathcalO(S2Amathrmpoly(H)/epsilon2)$の探索を効率的に行うアルゴリズムを提案する。
また、ほぼ一致する$Omega(S2AH2/epsilon2)$ lower boundを与え、この設定でアルゴリズムのほぼ最適性を示す。
論文 参考訳(メタデータ) (2020-02-07T14:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。