論文の概要: Non-Parametric Stochastic Policy Gradient with Strategic Retreat for
Non-Stationary Environment
- arxiv url: http://arxiv.org/abs/2203.14905v1
- Date: Thu, 24 Mar 2022 21:41:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 16:39:01.391859
- Title: Non-Parametric Stochastic Policy Gradient with Strategic Retreat for
Non-Stationary Environment
- Title(参考訳): 非定常環境に対する戦略的再処理を伴う非パラメトリック確率的政策
- Authors: Apan Dastider and Mingjie Lin
- Abstract要約: 非パラメトリックな最適制御ポリシのシーケンスを学習するための体系的な方法論を提案する。
本手法はDDPG法とTD3法を学習性能の点で大きな差で上回っている。
- 参考スコア(独自算出の注目度): 1.5229257192293197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In modern robotics, effectively computing optimal control policies under
dynamically varying environments poses substantial challenges to the
off-the-shelf parametric policy gradient methods, such as the Deep
Deterministic Policy Gradient (DDPG) and Twin Delayed Deep Deterministic policy
gradient (TD3). In this paper, we propose a systematic methodology to
dynamically learn a sequence of optimal control policies non-parametrically,
while autonomously adapting with the constantly changing environment dynamics.
Specifically, our non-parametric kernel-based methodology embeds a policy
distribution as the features in a non-decreasing Euclidean space, therefore
allowing its search space to be defined as a very high (possible infinite)
dimensional RKHS (Reproducing Kernel Hilbert Space). Moreover, by leveraging
the similarity metric computed in RKHS, we augmented our non-parametric
learning with the technique of AdaptiveH- adaptively selecting a time-frame
window of finishing the optimal part of whole action-sequence sampled on some
preceding observed state. To validate our proposed approach, we conducted
extensive experiments with multiple classic benchmarks and one simulated
robotics benchmark equipped with dynamically changing environments. Overall,
our methodology has outperformed the well-established DDPG and TD3 methodology
by a sizeable margin in terms of learning performance.
- Abstract(参考訳): 現代のロボティクスでは、動的に変化する環境下で最適な制御ポリシーを効果的に計算することは、市販のパラメトリックポリシー勾配法(ddpg)やツイン遅延ディープ決定主義ポリシー勾配(td3)に重大な課題をもたらす。
本稿では,常に変化する環境動態に自律的に適応しながら,最適制御ポリシーの順序を非パラメトリック的に動的に学習する手法を提案する。
具体的には、我々の非パラメトリックカーネルベースの方法論は、非減少ユークリッド空間の特徴としてポリシー分布を埋め込むことで、その探索空間を非常に高次元(無限)のRKHSとして定義することができる。
さらに、RKHSで計算された類似度指標を利用して、先行観測状態にサンプリングされた行動系列全体の最適部分を終了する時間枠ウィンドウを適応的に選択するAdaptiveH-技術を用いて、非パラメトリック学習を強化した。
提案手法を検証するため,複数の古典的ベンチマークと,動的に変化する環境を備えたシミュレーションロボットベンチマークを用いて,広範な実験を行った。
全体として,本手法はDDPG法とTD3法を学習性能の点で大きな差で上回っている。
関連論文リスト
- Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Stabilizing Policy Gradients for Stochastic Differential Equations via Consistency with Perturbation Process [11.01014302314467]
我々は、ディープニューラルネットワークパラメータ化微分方程式(SDE)の最適化に焦点をあてる。
我々は、SDEが関連する摂動過程と整合するように制約することを提案する。
我々のフレームワークは、SDEを効果的かつ効率的に訓練するためのポリシー勾配法を多目的に選択する。
論文 参考訳(メタデータ) (2024-03-07T02:24:45Z) - Beyond Stationarity: Convergence Analysis of Stochastic Softmax Policy Gradient Methods [0.40964539027092917]
Markov Decision Processs (MDP) は、シーケンシャルな意思決定問題のモデリングと解決のための正式なフレームワークである。
実際、全てのパラメータは、動的プログラミングによって提案される固有の構造を無視して、同時に訓練される。
本稿では、動的プログラミングと動的ポリシー勾配というポリシー勾配の組み合わせを紹介し、パラメータを時間内に後方にトレーニングする。
論文 参考訳(メタデータ) (2023-10-04T09:21:01Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Jointly Learning Environments and Control Policies with Projected
Stochastic Gradient Ascent [3.118384520557952]
この問題を解決するために,政策勾配法とモデルに基づく最適化手法を組み合わせた深層強化学習アルゴリズムを提案する。
本質的に,本アルゴリズムはモンテカルロサンプリングと自動微分によって予測されるリターンの勾配を反復的に近似する。
DEPSは、少なくとも3つの環境では、より少ないイテレーションで高いリターンのソリューションを一貫して得ることができる、ということが示されます。
論文 参考訳(メタデータ) (2020-06-02T16:08:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。