論文の概要: Episodic Policy Gradient Training
- arxiv url: http://arxiv.org/abs/2112.01853v1
- Date: Fri, 3 Dec 2021 11:15:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-06 20:56:25.167333
- Title: Episodic Policy Gradient Training
- Title(参考訳): エピソード政策グラディエントトレーニング
- Authors: Hung Le, Majid Abdolshah, Thommen K. George, Kien Do, Dung Nguyen,
Svetha Venkatesh
- Abstract要約: エピソード政策グラディエントトレーニング(EPGT)
本稿では, 強調学習アルゴリズムのハイパーパラメータを最適化するために, エピソードメモリを用いたポリシー勾配法のための新しいトレーニング手法を提案する。
連続環境と離散環境の両方における実験結果から,提案手法を用いることにより,様々なポリシー勾配アルゴリズムの性能向上が期待できる。
- 参考スコア(独自算出の注目度): 43.62408764384791
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a novel training procedure for policy gradient methods wherein
episodic memory is used to optimize the hyperparameters of reinforcement
learning algorithms on-the-fly. Unlike other hyperparameter searches, we
formulate hyperparameter scheduling as a standard Markov Decision Process and
use episodic memory to store the outcome of used hyperparameters and their
training contexts. At any policy update step, the policy learner refers to the
stored experiences, and adaptively reconfigures its learning algorithm with the
new hyperparameters determined by the memory. This mechanism, dubbed as
Episodic Policy Gradient Training (EPGT), enables an episodic learning process,
and jointly learns the policy and the learning algorithm's hyperparameters
within a single run. Experimental results on both continuous and discrete
environments demonstrate the advantage of using the proposed method in boosting
the performance of various policy gradient algorithms.
- Abstract(参考訳): 本稿では,強調学習アルゴリズムのハイパーパラメータを最適化するために,エピソードメモリを用いたポリシー勾配法のための新しいトレーニング手法を提案する。
他のハイパーパラメータ検索とは異なり、ハイパーパラメータスケジューリングを標準マルコフ決定プロセスとして定式化し、使用するハイパーパラメータとそのトレーニングコンテキストの結果をエピソディックメモリで保存する。
ポリシー更新ステップでは、ポリシー学習者はストアドエクスペリエンスを参照し、メモリによって決定される新しいハイパーパラメータで学習アルゴリズムを適応的に再構成する。
このメカニズムは、EPGT(EPsodic Policy Gradient Training)と呼ばれ、エピソード学習プロセスを可能にし、単一の実行内でポリシーと学習アルゴリズムのハイパーパラメータを共同で学習する。
連続環境および離散環境における実験結果から,提案手法を用いることにより,各種ポリシー勾配アルゴリズムの性能向上が期待できる。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Beyond Stationarity: Convergence Analysis of Stochastic Softmax Policy Gradient Methods [0.40964539027092917]
Markov Decision Processs (MDP) は、シーケンシャルな意思決定問題のモデリングと解決のための正式なフレームワークである。
実際、全てのパラメータは、動的プログラミングによって提案される固有の構造を無視して、同時に訓練される。
本稿では、動的プログラミングと動的ポリシー勾配というポリシー勾配の組み合わせを紹介し、パラメータを時間内に後方にトレーニングする。
論文 参考訳(メタデータ) (2023-10-04T09:21:01Z) - Stepsize Learning for Policy Gradient Methods in Contextual Markov
Decision Processes [35.889129338603446]
ポリシーに基づくアルゴリズムは、モデルフリーRLにおいて最も広く採用されている手法の一つである。
彼らは、一連の不均一なタスクを達成するように頼まれたときに苦労する傾向があります。
メタMDPと呼ばれる新しい定式化を導入し、RLにおける任意のハイパーパラメータ選択問題を解くのに使うことができる。
論文 参考訳(メタデータ) (2023-06-13T12:58:12Z) - Non-Parametric Stochastic Policy Gradient with Strategic Retreat for
Non-Stationary Environment [1.5229257192293197]
非パラメトリックな最適制御ポリシのシーケンスを学習するための体系的な方法論を提案する。
本手法はDDPG法とTD3法を学習性能の点で大きな差で上回っている。
論文 参考訳(メタデータ) (2022-03-24T21:41:13Z) - Optimistic Policy Optimization is Provably Efficient in Non-stationary MDPs [113.8752163061151]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究
線形最適化アンダーライン最適化アルゴリズム(PROPO)を提案する。
PROPOはスライディングウィンドウベースのポリシー評価と周期的リスタートベースのポリシー改善の2つのメカニズムを特徴としている。
論文 参考訳(メタデータ) (2021-10-18T02:33:20Z) - Online hyperparameter optimization by real-time recurrent learning [57.01871583756586]
ニューラルネットワーク(rnn)におけるハイパーパラメータ最適化とパラメータ学習の類似性を活用した。
RNNのための学習済みのオンライン学習アルゴリズムのファミリーを適応させ、ハイパーパラメータとネットワークパラメータを同時に調整します。
この手順は、通常の方法に比べて、ウォールクロック時間のほんの少しで、体系的に一般化性能が向上する。
論文 参考訳(メタデータ) (2021-02-15T19:36:18Z) - Online Hyper-parameter Tuning in Off-policy Learning via Evolutionary
Strategies [41.13416324282365]
本稿では,進化的戦略のオンライン・ハイパーパラメータ・チューニングへの応用をオフ政治学習に適用するフレームワークを提案する。
我々の定式化はメタ・グラディエントに密接なつながりを持ち、比較的低次元の探索空間を持つブラックボックス最適化の強みを利用する。
論文 参考訳(メタデータ) (2020-06-13T03:54:26Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。