論文の概要: Episodic Policy Gradient Training
- arxiv url: http://arxiv.org/abs/2112.01853v1
- Date: Fri, 3 Dec 2021 11:15:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-06 20:56:25.167333
- Title: Episodic Policy Gradient Training
- Title(参考訳): エピソード政策グラディエントトレーニング
- Authors: Hung Le, Majid Abdolshah, Thommen K. George, Kien Do, Dung Nguyen,
Svetha Venkatesh
- Abstract要約: エピソード政策グラディエントトレーニング(EPGT)
本稿では, 強調学習アルゴリズムのハイパーパラメータを最適化するために, エピソードメモリを用いたポリシー勾配法のための新しいトレーニング手法を提案する。
連続環境と離散環境の両方における実験結果から,提案手法を用いることにより,様々なポリシー勾配アルゴリズムの性能向上が期待できる。
- 参考スコア(独自算出の注目度): 43.62408764384791
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a novel training procedure for policy gradient methods wherein
episodic memory is used to optimize the hyperparameters of reinforcement
learning algorithms on-the-fly. Unlike other hyperparameter searches, we
formulate hyperparameter scheduling as a standard Markov Decision Process and
use episodic memory to store the outcome of used hyperparameters and their
training contexts. At any policy update step, the policy learner refers to the
stored experiences, and adaptively reconfigures its learning algorithm with the
new hyperparameters determined by the memory. This mechanism, dubbed as
Episodic Policy Gradient Training (EPGT), enables an episodic learning process,
and jointly learns the policy and the learning algorithm's hyperparameters
within a single run. Experimental results on both continuous and discrete
environments demonstrate the advantage of using the proposed method in boosting
the performance of various policy gradient algorithms.
- Abstract(参考訳): 本稿では,強調学習アルゴリズムのハイパーパラメータを最適化するために,エピソードメモリを用いたポリシー勾配法のための新しいトレーニング手法を提案する。
他のハイパーパラメータ検索とは異なり、ハイパーパラメータスケジューリングを標準マルコフ決定プロセスとして定式化し、使用するハイパーパラメータとそのトレーニングコンテキストの結果をエピソディックメモリで保存する。
ポリシー更新ステップでは、ポリシー学習者はストアドエクスペリエンスを参照し、メモリによって決定される新しいハイパーパラメータで学習アルゴリズムを適応的に再構成する。
このメカニズムは、EPGT(EPsodic Policy Gradient Training)と呼ばれ、エピソード学習プロセスを可能にし、単一の実行内でポリシーと学習アルゴリズムのハイパーパラメータを共同で学習する。
連続環境および離散環境における実験結果から,提案手法を用いることにより,各種ポリシー勾配アルゴリズムの性能向上が期待できる。
関連論文リスト
- Beyond Stationarity: Convergence Analysis of Stochastic Softmax Policy
Gradient Methods [0.46040036610482665]
本稿では、動的プログラミングと動的ポリシー勾配というポリシー勾配の組み合わせを紹介し、パラメータを時間内に後方にトレーニングする。
動的ポリシー勾配トレーニングを使用することで、改善された収束境界に反映される有限時間問題の構造をよりうまく活用できることが判明した。
論文 参考訳(メタデータ) (2023-10-04T09:21:01Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Stepsize Learning for Policy Gradient Methods in Contextual Markov
Decision Processes [35.889129338603446]
ポリシーに基づくアルゴリズムは、モデルフリーRLにおいて最も広く採用されている手法の一つである。
彼らは、一連の不均一なタスクを達成するように頼まれたときに苦労する傾向があります。
メタMDPと呼ばれる新しい定式化を導入し、RLにおける任意のハイパーパラメータ選択問題を解くのに使うことができる。
論文 参考訳(メタデータ) (2023-06-13T12:58:12Z) - A Parametric Class of Approximate Gradient Updates for Policy
Optimization [47.69337420768319]
我々は、勾配形式とスケーリング関数の限定的な選択の観点から、基礎となる更新を再表現する統一的な視点を開発する。
我々は、収束速度と最終的な結果品質の両方の利点をもたらすことができる方法で、既存のアルゴリズムを一般化する、新しいが、動機のよい更新を得る。
論文 参考訳(メタデータ) (2022-06-17T01:28:38Z) - Non-Parametric Stochastic Policy Gradient with Strategic Retreat for
Non-Stationary Environment [1.5229257192293197]
非パラメトリックな最適制御ポリシのシーケンスを学習するための体系的な方法論を提案する。
本手法はDDPG法とTD3法を学習性能の点で大きな差で上回っている。
論文 参考訳(メタデータ) (2022-03-24T21:41:13Z) - Online hyperparameter optimization by real-time recurrent learning [57.01871583756586]
ニューラルネットワーク(rnn)におけるハイパーパラメータ最適化とパラメータ学習の類似性を活用した。
RNNのための学習済みのオンライン学習アルゴリズムのファミリーを適応させ、ハイパーパラメータとネットワークパラメータを同時に調整します。
この手順は、通常の方法に比べて、ウォールクロック時間のほんの少しで、体系的に一般化性能が向上する。
論文 参考訳(メタデータ) (2021-02-15T19:36:18Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Online Hyper-parameter Tuning in Off-policy Learning via Evolutionary
Strategies [41.13416324282365]
本稿では,進化的戦略のオンライン・ハイパーパラメータ・チューニングへの応用をオフ政治学習に適用するフレームワークを提案する。
我々の定式化はメタ・グラディエントに密接なつながりを持ち、比較的低次元の探索空間を持つブラックボックス最適化の強みを利用する。
論文 参考訳(メタデータ) (2020-06-13T03:54:26Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。