論文の概要: Monte Carlo Augmented Actor-Critic for Sparse Reward Deep Reinforcement
Learning from Suboptimal Demonstrations
- arxiv url: http://arxiv.org/abs/2210.07432v1
- Date: Fri, 14 Oct 2022 00:23:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 15:23:10.518564
- Title: Monte Carlo Augmented Actor-Critic for Sparse Reward Deep Reinforcement
Learning from Suboptimal Demonstrations
- Title(参考訳): モンテカルロ・アクター・クライトを用いた浅部深部強化学習
- Authors: Albert Wilcox, Ashwin Balakrishna, Jules Dedieu, Wyame Benslimane,
Daniel Brown, Ken Goldberg
- Abstract要約: Monte Carlo Augmented Actor Critic (MCAC) は、標準的なアクター・アクター・アクター・クリティカル・アルゴリズムに対するパラメータフリーな修正である。
MCACは、標準時間距離(TD)目標とモンテカルロの推定値の最大値を取ることで、修正された$Q$-値を計算する。
5ドルの連続制御ドメインに対する実験は、MCACが6ドルの一般的なRLおよびRL-from-demonstrationsアルゴリズムで学習効率を大幅に向上させる可能性があることを示唆している。
- 参考スコア(独自算出の注目度): 17.08814685657957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Providing densely shaped reward functions for RL algorithms is often
exceedingly challenging, motivating the development of RL algorithms that can
learn from easier-to-specify sparse reward functions. This sparsity poses new
exploration challenges. One common way to address this problem is using
demonstrations to provide initial signal about regions of the state space with
high rewards. However, prior RL from demonstrations algorithms introduce
significant complexity and many hyperparameters, making them hard to implement
and tune. We introduce Monte Carlo Augmented Actor Critic (MCAC), a parameter
free modification to standard actor-critic algorithms which initializes the
replay buffer with demonstrations and computes a modified $Q$-value by taking
the maximum of the standard temporal distance (TD) target and a Monte Carlo
estimate of the reward-to-go. This encourages exploration in the neighborhood
of high-performing trajectories by encouraging high $Q$-values in corresponding
regions of the state space. Experiments across $5$ continuous control domains
suggest that MCAC can be used to significantly increase learning efficiency
across $6$ commonly used RL and RL-from-demonstrations algorithms. See
https://sites.google.com/view/mcac-rl for code and supplementary material.
- Abstract(参考訳): RLアルゴリズムに対する密な形状の報酬関数を提供することは、しばしば困難であり、スパース報酬関数から学習できるRLアルゴリズムの開発を動機付けている。
この空間は新たな探索課題を引き起こしている。
この問題に対処する一般的な方法は、デモを使用して、高い報酬で状態空間の領域に関する最初の信号を提供することである。
しかし、デモアルゴリズムの先行RLは、非常に複雑で多くのハイパーパラメータを導入し、実装とチューニングが困難になる。
我々は,標準時間距離(td)目標とモンテカルロ推定値(reward-to-go)を最大値とすることで,リプレイバッファを初期化し,修正された$q$-valueを計算する標準アクタ-クリティックアルゴリズムのパラメータフリー修正であるモンテカルロ拡張アクター批評家(mcac)を紹介する。
これにより、状態空間の対応する領域における高いQ$値の促進により、高性能な軌道の近傍での探索が促進される。
5ドルの連続制御ドメインに対する実験は、MCACが6ドルの一般的なRLおよびRL-from-demonstrationsアルゴリズムで学習効率を大幅に向上させる可能性があることを示唆している。
コードと補足資料のhttps://sites.google.com/view/mcac-rlを参照。
関連論文リスト
- Uncertainty-Aware Reward-Free Exploration with General Function Approximation [69.27868448449755]
本稿では、algと呼ばれる報酬のない強化学習アルゴリズムを提案する。
私たちのアルゴリズムの背後にある重要なアイデアは、環境を探索する上で不確実性を認識した本質的な報酬である。
実験の結果、GFA-RFEは最先端の教師なしRLアルゴリズムよりも優れ、あるいは同等であることがわかった。
論文 参考訳(メタデータ) (2024-06-24T01:37:18Z) - Reinforcement Learning from Human Feedback without Reward Inference: Model-Free Algorithm and Instance-Dependent Analysis [16.288866201806382]
モデルフリーなRLHFベストポリシー識別アルゴリズムである$mathsfBSAD$を、明示的な報酬モデル推論なしで開発する。
アルゴリズムは、人選好情報から直接、その最適方針を後方方向に識別する。
論文 参考訳(メタデータ) (2024-06-11T17:01:41Z) - The Effective Horizon Explains Deep RL Performance in Stochastic Environments [21.148001945560075]
強化学習(Reinforcement Learning, RL)理論は、最小の複雑性サンプル境界の証明に重点を置いている。
本稿では,RLアルゴリズムSQIRLを提案する。このアルゴリズムはランダムに探索してロールアウトを収集することで,最適に近いポリシーを反復的に学習する。
我々は、SQIRLを利用して、指数的に「効果的な地平線」のルックアヘッドにのみ現れるRLのインスタンス依存のサンプル複雑性境界を導出し、近似に使用されるクラスの複雑性を導出する。
論文 参考訳(メタデータ) (2023-12-13T18:58:56Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Reward-Free RL is No Harder Than Reward-Aware RL in Linear Markov
Decision Processes [61.11090361892306]
Reward-free reinforcement learning (RL) は、エージェントが探索中に報酬関数にアクセスできないような環境を考える。
この分離は線形MDPの設定には存在しないことを示す。
我々は$d$次元線形 MDP における報酬のない RL に対する計算効率の良いアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-01-26T22:09:59Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。
調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。
提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文 参考訳(メタデータ) (2021-06-18T17:57:00Z) - On Using Hamiltonian Monte Carlo Sampling for Reinforcement Learning
Problems in High-dimension [7.200655637873445]
Hamiltonian Monte Carlo (HMC) サンプリングは、RLアルゴリズムをトレーニングするためのデータを生成するための抽出可能な方法を提供する。
textitHamiltonian $Q$-Learningと呼ばれるフレームワークを導入し、理論的にも経験的にも、アクション、報酬、状態遷移のHMCサンプルによって生成されたデータセットから$Q$値が学習可能であることを示す。
論文 参考訳(メタデータ) (2020-11-11T17:35:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。