Fugu-MT 論文翻訳(概要): Episodic Policy Gradient Training

論文の概要: Episodic Policy Gradient Training

arxiv url: http://arxiv.org/abs/2112.01853v1
Date: Fri, 3 Dec 2021 11:15:32 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-06 20:56:25.167333
Title: Episodic Policy Gradient Training
Title（参考訳）: エピソード政策グラディエントトレーニング
Authors: Hung Le, Majid Abdolshah, Thommen K. George, Kien Do, Dung Nguyen, Svetha Venkatesh
Abstract要約: エピソード政策グラディエントトレーニング(EPGT) 本稿では, 強調学習アルゴリズムのハイパーパラメータを最適化するために, エピソードメモリを用いたポリシー勾配法のための新しいトレーニング手法を提案する。連続環境と離散環境の両方における実験結果から,提案手法を用いることにより,様々なポリシー勾配アルゴリズムの性能向上が期待できる。
参考スコア（独自算出の注目度）: 43.62408764384791
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce a novel training procedure for policy gradient methods wherein episodic memory is used to optimize the hyperparameters of reinforcement learning algorithms on-the-fly. Unlike other hyperparameter searches, we formulate hyperparameter scheduling as a standard Markov Decision Process and use episodic memory to store the outcome of used hyperparameters and their training contexts. At any policy update step, the policy learner refers to the stored experiences, and adaptively reconfigures its learning algorithm with the new hyperparameters determined by the memory. This mechanism, dubbed as Episodic Policy Gradient Training (EPGT), enables an episodic learning process, and jointly learns the policy and the learning algorithm's hyperparameters within a single run. Experimental results on both continuous and discrete environments demonstrate the advantage of using the proposed method in boosting the performance of various policy gradient algorithms.
Abstract（参考訳）: 本稿では,強調学習アルゴリズムのハイパーパラメータを最適化するために,エピソードメモリを用いたポリシー勾配法のための新しいトレーニング手法を提案する。他のハイパーパラメータ検索とは異なり、ハイパーパラメータスケジューリングを標準マルコフ決定プロセスとして定式化し、使用するハイパーパラメータとそのトレーニングコンテキストの結果をエピソディックメモリで保存する。ポリシー更新ステップでは、ポリシー学習者はストアドエクスペリエンスを参照し、メモリによって決定される新しいハイパーパラメータで学習アルゴリズムを適応的に再構成する。このメカニズムは、EPGT(EPsodic Policy Gradient Training)と呼ばれ、エピソード学習プロセスを可能にし、単一の実行内でポリシーと学習アルゴリズムのハイパーパラメータを共同で学習する。連続環境および離散環境における実験結果から,提案手法を用いることにより,各種ポリシー勾配アルゴリズムの性能向上が期待できる。

関連論文リスト

Relative Entropy Pathwise Policy Optimization [56.86405621176669]
そこで本研究では,Q値モデルをオンラインデータから純粋にトレーニング可能な,価値段階駆動型オンデマンドアルゴリズムの構築方法について述べる。本稿では,パスワイズポリシー勾配のサンプル効率と,標準的なオンライン学習の単純さと最小限のメモリフットプリントを組み合わせた,効率的なオンライン学習アルゴリズムであるRelative Entropy Pathwise Policy Optimization (REPPO)を提案する。
論文参考訳（メタデータ） (2025-07-15T06:24:07Z)
Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes [59.27926064817273]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
論文参考訳（メタデータ） (2025-06-06T10:29:05Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Beyond Stationarity: Convergence Analysis of Stochastic Softmax Policy Gradient Methods [0.40964539027092917]
Markov Decision Processs (MDP) は、シーケンシャルな意思決定問題のモデリングと解決のための正式なフレームワークである。実際、全てのパラメータは、動的プログラミングによって提案される固有の構造を無視して、同時に訓練される。本稿では、動的プログラミングと動的ポリシー勾配というポリシー勾配の組み合わせを紹介し、パラメータを時間内に後方にトレーニングする。
論文参考訳（メタデータ） (2023-10-04T09:21:01Z)
Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文参考訳（メタデータ） (2023-07-20T09:05:46Z)
Stepsize Learning for Policy Gradient Methods in Contextual Markov Decision Processes [35.889129338603446]
ポリシーに基づくアルゴリズムは、モデルフリーRLにおいて最も広く採用されている手法の一つである。彼らは、一連の不均一なタスクを達成するように頼まれたときに苦労する傾向があります。メタMDPと呼ばれる新しい定式化を導入し、RLにおける任意のハイパーパラメータ選択問題を解くのに使うことができる。
論文参考訳（メタデータ） (2023-06-13T12:58:12Z)
Non-Parametric Stochastic Policy Gradient with Strategic Retreat for Non-Stationary Environment [1.5229257192293197]
非パラメトリックな最適制御ポリシのシーケンスを学習するための体系的な方法論を提案する。本手法はDDPG法とTD3法を学習性能の点で大きな差で上回っている。
論文参考訳（メタデータ） (2022-03-24T21:41:13Z)
Optimistic Policy Optimization is Provably Efficient in Non-stationary MDPs [113.8752163061151]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究線形最適化アンダーライン最適化アルゴリズム(PROPO)を提案する。 PROPOはスライディングウィンドウベースのポリシー評価と周期的リスタートベースのポリシー改善の2つのメカニズムを特徴としている。
論文参考訳（メタデータ） (2021-10-18T02:33:20Z)
Online hyperparameter optimization by real-time recurrent learning [57.01871583756586]
ニューラルネットワーク(rnn)におけるハイパーパラメータ最適化とパラメータ学習の類似性を活用した。 RNNのための学習済みのオンライン学習アルゴリズムのファミリーを適応させ、ハイパーパラメータとネットワークパラメータを同時に調整します。この手順は、通常の方法に比べて、ウォールクロック時間のほんの少しで、体系的に一般化性能が向上する。
論文参考訳（メタデータ） (2021-02-15T19:36:18Z)
Online Hyper-parameter Tuning in Off-policy Learning via Evolutionary Strategies [41.13416324282365]
本稿では,進化的戦略のオンライン・ハイパーパラメータ・チューニングへの応用をオフ政治学習に適用するフレームワークを提案する。我々の定式化はメタ・グラディエントに密接なつながりを持ち、比較的低次元の探索空間を持つブラックボックス最適化の強みを利用する。
論文参考訳（メタデータ） (2020-06-13T03:54:26Z)
AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文参考訳（メタデータ） (2020-06-11T16:36:31Z)
Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。 KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文参考訳（メタデータ） (2020-02-17T13:30:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。