論文の概要: ETGL-DDPG: A Deep Deterministic Policy Gradient Algorithm for Sparse Reward Continuous Control
- arxiv url: http://arxiv.org/abs/2410.05225v1
- Date: Mon, 7 Oct 2024 17:31:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 23:39:03.151122
- Title: ETGL-DDPG: A Deep Deterministic Policy Gradient Algorithm for Sparse Reward Continuous Control
- Title(参考訳): ETGL-DDPG:スパースリワード連続制御のための決定論的ポリシー勾配アルゴリズム
- Authors: Ehsan Futuhi, Shayan Karimi, Chao Gao, Martin Müller,
- Abstract要約: 我々は、疎度な報酬を伴う強化学習の文脈において、Deep Deterministic Policy gradient (DDPG) を考慮する。
探索手順としてemph$epsilont$-greedyを導入する。
報酬のある遷移によって提供される情報をより効率的に利用するために、我々は新しいデュアルエクスペリエンスバッファーフレームワークを開発する。
結果として得られるアルゴリズムであるemphETGL-DDPGは、3つのテクニックをすべて統合する。
- 参考スコア(独自算出の注目度): 13.324744655744624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider deep deterministic policy gradient (DDPG) in the context of reinforcement learning with sparse rewards. To enhance exploration, we introduce a search procedure, \emph{${\epsilon}{t}$-greedy}, which generates exploratory options for exploring less-visited states. We prove that search using $\epsilon t$-greedy has polynomial sample complexity under mild MDP assumptions. To more efficiently use the information provided by rewarded transitions, we develop a new dual experience replay buffer framework, \emph{GDRB}, and implement \emph{longest n-step returns}. The resulting algorithm, \emph{ETGL-DDPG}, integrates all three techniques: \bm{$\epsilon t$}-greedy, \textbf{G}DRB, and \textbf{L}ongest $n$-step, into DDPG. We evaluate ETGL-DDPG on standard benchmarks and demonstrate that it outperforms DDPG, as well as other state-of-the-art methods, across all tested sparse-reward continuous environments. Ablation studies further highlight how each strategy individually enhances the performance of DDPG in this setting.
- Abstract(参考訳): 本研究は, 厳密な報酬を伴う強化学習の文脈において, DDPG(Deep Deterministic Policy gradient)を考察する。
探索を強化するために,探索手順であるemph{${\epsilon}{t}$-greedy}を導入する。
我々は、$\epsilon t$-greedy を用いた探索が、穏やかな MDP 仮定の下で多項式サンプルの複雑さを持つことを証明した。
報酬付き遷移によって提供される情報をより効率的に利用するために、新しいデュアルエクスペリエンス再生バッファフレームワークである \emph{GDRB} を開発し、また \emph{longest n-step return} を実装した。
結果として得られるアルゴリズムである \emph{ETGL-DDPG} は、以下の3つのテクニックを全て統合する: \bm{$\epsilon t$}-greedy, \textbf{G}DRB, \textbf{L}ongest $n$-step, DDPG。
標準ベンチマークでETGL-DDPGを評価し,テスト対象のスパース・リワード連続環境においてDDPGおよび他の最先端手法よりも優れた性能を示す。
アブレーション研究は、各戦略がDDPGの性能を個別に向上する方法をさらに強調する。
関連論文リスト
- Towards Principled, Practical Policy Gradient for Bandits and Tabular MDPs [9.58750210024265]
バンディットとマルコフ決定過程(MDP)に対する(確率的)ソフトマックスポリシー勾配(PG)法について検討する。
提案アルゴリズムは,技術結果と類似した理論的保証を提供するが,オラクルのような量の知識は必要としないことを示す。
マルチアームバンディット設定の場合,提案手法は明示的な探索や報奨ギャップの知識,報奨分布,ノイズを必要としない理論的なPGアルゴリズムを実現する。
論文 参考訳(メタデータ) (2024-05-21T18:12:39Z) - Asynchronous Federated Reinforcement Learning with Policy Gradient Updates: Algorithm Design and Convergence Analysis [41.75366066380951]
N$エージェント間の協調によりグローバルモデルを構築する非同期強化学習フレームワークAFedPGを提案する。
我々は, AFedPGの理論的大域収束境界を解析し, サンプル複雑性と時間複雑性の両方の観点から, 提案アルゴリズムの利点を特徴づける。
我々は,多種多様なエージェントを持つ4つの広く使用されている MuJoCo 環境における AFedPG の性能改善を実証的に検証した。
論文 参考訳(メタデータ) (2024-04-09T04:21:13Z) - Accelerated Policy Gradient: On the Convergence Rates of the Nesterov Momentum for Reinforcement Learning [12.987019067098412]
我々は、強化学習(RL)における政策最適化に、祝福されたネステロフの加速勾配(NAG)法を適応する。
i) $tildeO (1/t2)$, (ii) $O(e-ct)$, (ii) $O(e-ct)$。
論文 参考訳(メタデータ) (2023-10-18T11:33:22Z) - Revisiting the Gumbel-Softmax in MADDPG [11.292086312664383]
DDPGは、状態-作用値関数の勾配が存在する連続的な作用空間のために設計されたアルゴリズムである。
このアルゴリズムが離散的な作用空間で機能するためには、離散的な勾配推定を行う必要がある。
本稿では,複数の代替手段を探索し,離散グリッドワールドシナリオのためのMADDPGに統合する。
論文 参考訳(メタデータ) (2023-02-23T06:13:51Z) - Stochastic Policy Gradient Methods: Improved Sample Complexity for
Fisher-non-degenerate Policies [19.779044926914704]
我々は、フィッシャー非退化パラメタライズドポリシーの一般クラスに対する改善されたグローバルコンバージェンス保証を開発する。
本研究では,Implicit Gradient Transport (N-PG-IGT) を用いた正規化政策勾配法を提案し,この手法のサンプル複雑性を$tildemathcalO(varepsilon-2.5)$とする。
我々はこの複雑さをさらに改善し、ヘッセン支援再帰政策勾配を考慮し、$tilde MathcalmathcalO (varepsilon-2)$に改善する。
論文 参考訳(メタデータ) (2023-02-03T13:50:23Z) - ReSQueing Parallel and Private Stochastic Convex Optimization [59.53297063174519]
本稿では,BFG凸最適化(SCO: Reweighted Query (ReSQue) 推定ツールを提案する。
我々はSCOの並列およびプライベート設定における最先端の複雑さを実現するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-01-01T18:51:29Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z) - Nearly Minimax Optimal Reward-free Reinforcement Learning [88.75843804630772]
本稿では、特にバッチ強化学習に適した報酬不要強化学習フレームワークと、複数の報酬関数に対するポリシーを必要とするシナリオについて検討する。
textbfStaged textbfSampling + textbfTruncated textbfPlanning (algoname) という新しい効率的なアルゴリズムを提供しています。
論文 参考訳(メタデータ) (2020-10-12T17:51:19Z) - Momentum-Based Policy Gradient Methods [133.53164856723782]
モデルフリー強化学習のための効率的なモーメントに基づくポリシー勾配手法のクラスを提案する。
特に,IS-MBPG法の適応的でないバージョンを提示するが,これは大きなバッチを伴わずに$O(epsilon-3)$と最もよく知られたサンプルの複雑さに達する。
論文 参考訳(メタデータ) (2020-07-13T20:44:15Z) - Private Stochastic Non-Convex Optimization: Adaptive Algorithms and
Tighter Generalization Bounds [72.63031036770425]
有界非次元最適化のための差分プライベート(DP)アルゴリズムを提案する。
標準勾配法に対する経験的優位性について,2つの一般的なディープラーニング手法を実証する。
論文 参考訳(メタデータ) (2020-06-24T06:01:24Z) - Zeroth-order Deterministic Policy Gradient [116.87117204825105]
ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。
ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。
ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
論文 参考訳(メタデータ) (2020-06-12T16:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。