Fugu-MT 論文翻訳(概要): Monte Carlo Augmented Actor-Critic for Sparse Reward Deep Reinforcement Learning from Suboptimal Demonstrations

論文の概要: Monte Carlo Augmented Actor-Critic for Sparse Reward Deep Reinforcement Learning from Suboptimal Demonstrations

arxiv url: http://arxiv.org/abs/2210.07432v1
Date: Fri, 14 Oct 2022 00:23:37 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-17 15:23:10.518564
Title: Monte Carlo Augmented Actor-Critic for Sparse Reward Deep Reinforcement Learning from Suboptimal Demonstrations
Title（参考訳）: モンテカルロ・アクター・クライトを用いた浅部深部強化学習
Authors: Albert Wilcox, Ashwin Balakrishna, Jules Dedieu, Wyame Benslimane, Daniel Brown, Ken Goldberg
Abstract要約: Monte Carlo Augmented Actor Critic (MCAC) は、標準的なアクター・アクター・アクター・クリティカル・アルゴリズムに対するパラメータフリーな修正である。 MCACは、標準時間距離(TD)目標とモンテカルロの推定値の最大値を取ることで、修正された$Q$-値を計算する。 5ドルの連続制御ドメインに対する実験は、MCACが6ドルの一般的なRLおよびRL-from-demonstrationsアルゴリズムで学習効率を大幅に向上させる可能性があることを示唆している。
参考スコア（独自算出の注目度）: 17.08814685657957
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Providing densely shaped reward functions for RL algorithms is often exceedingly challenging, motivating the development of RL algorithms that can learn from easier-to-specify sparse reward functions. This sparsity poses new exploration challenges. One common way to address this problem is using demonstrations to provide initial signal about regions of the state space with high rewards. However, prior RL from demonstrations algorithms introduce significant complexity and many hyperparameters, making them hard to implement and tune. We introduce Monte Carlo Augmented Actor Critic (MCAC), a parameter free modification to standard actor-critic algorithms which initializes the replay buffer with demonstrations and computes a modified $Q$-value by taking the maximum of the standard temporal distance (TD) target and a Monte Carlo estimate of the reward-to-go. This encourages exploration in the neighborhood of high-performing trajectories by encouraging high $Q$-values in corresponding regions of the state space. Experiments across $5$ continuous control domains suggest that MCAC can be used to significantly increase learning efficiency across $6$ commonly used RL and RL-from-demonstrations algorithms. See https://sites.google.com/view/mcac-rl for code and supplementary material.
Abstract（参考訳）: RLアルゴリズムに対する密な形状の報酬関数を提供することは、しばしば困難であり、スパース報酬関数から学習できるRLアルゴリズムの開発を動機付けている。この空間は新たな探索課題を引き起こしている。この問題に対処する一般的な方法は、デモを使用して、高い報酬で状態空間の領域に関する最初の信号を提供することである。しかし、デモアルゴリズムの先行RLは、非常に複雑で多くのハイパーパラメータを導入し、実装とチューニングが困難になる。我々は,標準時間距離(td)目標とモンテカルロ推定値(reward-to-go)を最大値とすることで,リプレイバッファを初期化し,修正された$q$-valueを計算する標準アクタ-クリティックアルゴリズムのパラメータフリー修正であるモンテカルロ拡張アクター批評家(mcac)を紹介する。これにより、状態空間の対応する領域における高いQ$値の促進により、高性能な軌道の近傍での探索が促進される。 5ドルの連続制御ドメインに対する実験は、MCACが6ドルの一般的なRLおよびRL-from-demonstrationsアルゴリズムで学習効率を大幅に向上させる可能性があることを示唆している。コードと補足資料のhttps://sites.google.com/view/mcac-rlを参照。

関連論文リスト

Inference-Time Scaling for Generalist Reward Modeling [25.62000059973935]
強化学習(RL)は大規模言語モデル(LLM)のポストトレーニングにおいて広く採用されている。 RLの主な課題は、検証可能な質問や人工ルールを超えて、様々な領域のLLMに対して正確な報酬信号を得ることである。本研究では,一般問合せに対する推論計算により,報酬モデルを改善する方法について検討する。
論文参考訳（メタデータ） (2025-04-03T11:19:49Z)
Langevin Soft Actor-Critic: Efficient Exploration through Uncertainty-Driven Critic Learning [33.42657871152637]
Langevin Soft Actor Critic (LSAC) は、政策最適化に対する不確実性推定による批判的学習の強化を優先している。 LSACは、連続制御タスクのための主流モデルフリーなRLアルゴリズムの性能より優れているか、あるいは劣っている。特にLSACは、連続的なアクション空間を持つ連続制御タスクにおけるLCCベースのトンプソンサンプリングの最初の成功例である。
論文参考訳（メタデータ） (2025-01-29T18:18:00Z)
MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization [91.80034860399677]
強化学習アルゴリズムは、現在のベスト戦略の活用と、より高い報酬につながる可能性のある新しいオプションの探索のバランスを図ることを目的としている。我々は本質的な探索と外生的な探索のバランスをとるためのフレームワークMaxInfoRLを紹介する。提案手法は,マルチアームバンディットの簡易な設定において,サブリニアな後悔を実現するものである。
論文参考訳（メタデータ） (2024-12-16T18:59:53Z)
Uncertainty-Aware Reward-Free Exploration with General Function Approximation [69.27868448449755]
本稿では、algと呼ばれる報酬のない強化学習アルゴリズムを提案する。私たちのアルゴリズムの背後にある重要なアイデアは、環境を探索する上で不確実性を認識した本質的な報酬である。実験の結果、GFA-RFEは最先端の教師なしRLアルゴリズムよりも優れ、あるいは同等であることがわかった。
論文参考訳（メタデータ） (2024-06-24T01:37:18Z)
Reinforcement Learning from Human Feedback without Reward Inference: Model-Free Algorithm and Instance-Dependent Analysis [16.288866201806382]
モデルフリーなRLHFベストポリシー識別アルゴリズムである$mathsfBSAD$を、明示的な報酬モデル推論なしで開発する。アルゴリズムは、人選好情報から直接、その最適方針を後方方向に識別する。
論文参考訳（メタデータ） (2024-06-11T17:01:41Z)
The Effective Horizon Explains Deep RL Performance in Stochastic Environments [21.148001945560075]
強化学習(Reinforcement Learning, RL)理論は、最小の複雑性サンプル境界の証明に重点を置いている。本稿では,RLアルゴリズムSQIRLを提案する。このアルゴリズムはランダムに探索してロールアウトを収集することで,最適に近いポリシーを反復的に学習する。我々は、SQIRLを利用して、指数的に「効果的な地平線」のルックアヘッドにのみ現れるRLのインスタンス依存のサンプル複雑性境界を導出し、近似に使用されるクラスの複雑性を導出する。
論文参考訳（メタデータ） (2023-12-13T18:58:56Z)
Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文参考訳（メタデータ） (2023-05-29T17:11:28Z)
Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-04-05T17:25:22Z)
Reward-Free RL is No Harder Than Reward-Aware RL in Linear Markov Decision Processes [61.11090361892306]
Reward-free reinforcement learning (RL) は、エージェントが探索中に報酬関数にアクセスできないような環境を考える。この分離は線形MDPの設定には存在しないことを示す。我々は$d$次元線形 MDP における報酬のない RL に対する計算効率の良いアルゴリズムを開発した。
論文参考訳（メタデータ） (2022-01-26T22:09:59Z)
Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。 SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文参考訳（メタデータ） (2021-11-05T12:51:15Z)
MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文参考訳（メタデータ） (2021-06-18T17:57:00Z)
On Using Hamiltonian Monte Carlo Sampling for Reinforcement Learning Problems in High-dimension [7.200655637873445]
Hamiltonian Monte Carlo (HMC) サンプリングは、RLアルゴリズムをトレーニングするためのデータを生成するための抽出可能な方法を提供する。 textitHamiltonian $Q$-Learningと呼ばれるフレームワークを導入し、理論的にも経験的にも、アクション、報酬、状態遷移のHMCサンプルによって生成されたデータセットから$Q$値が学習可能であることを示す。
論文参考訳（メタデータ） (2020-11-11T17:35:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。