論文の概要: Non-Parametric Stochastic Policy Gradient with Strategic Retreat for
Non-Stationary Environment
- arxiv url: http://arxiv.org/abs/2203.14905v1
- Date: Thu, 24 Mar 2022 21:41:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 16:39:01.391859
- Title: Non-Parametric Stochastic Policy Gradient with Strategic Retreat for
Non-Stationary Environment
- Title(参考訳): 非定常環境に対する戦略的再処理を伴う非パラメトリック確率的政策
- Authors: Apan Dastider and Mingjie Lin
- Abstract要約: 非パラメトリックな最適制御ポリシのシーケンスを学習するための体系的な方法論を提案する。
本手法はDDPG法とTD3法を学習性能の点で大きな差で上回っている。
- 参考スコア(独自算出の注目度): 1.5229257192293197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In modern robotics, effectively computing optimal control policies under
dynamically varying environments poses substantial challenges to the
off-the-shelf parametric policy gradient methods, such as the Deep
Deterministic Policy Gradient (DDPG) and Twin Delayed Deep Deterministic policy
gradient (TD3). In this paper, we propose a systematic methodology to
dynamically learn a sequence of optimal control policies non-parametrically,
while autonomously adapting with the constantly changing environment dynamics.
Specifically, our non-parametric kernel-based methodology embeds a policy
distribution as the features in a non-decreasing Euclidean space, therefore
allowing its search space to be defined as a very high (possible infinite)
dimensional RKHS (Reproducing Kernel Hilbert Space). Moreover, by leveraging
the similarity metric computed in RKHS, we augmented our non-parametric
learning with the technique of AdaptiveH- adaptively selecting a time-frame
window of finishing the optimal part of whole action-sequence sampled on some
preceding observed state. To validate our proposed approach, we conducted
extensive experiments with multiple classic benchmarks and one simulated
robotics benchmark equipped with dynamically changing environments. Overall,
our methodology has outperformed the well-established DDPG and TD3 methodology
by a sizeable margin in terms of learning performance.
- Abstract(参考訳): 現代のロボティクスでは、動的に変化する環境下で最適な制御ポリシーを効果的に計算することは、市販のパラメトリックポリシー勾配法(ddpg)やツイン遅延ディープ決定主義ポリシー勾配(td3)に重大な課題をもたらす。
本稿では,常に変化する環境動態に自律的に適応しながら,最適制御ポリシーの順序を非パラメトリック的に動的に学習する手法を提案する。
具体的には、我々の非パラメトリックカーネルベースの方法論は、非減少ユークリッド空間の特徴としてポリシー分布を埋め込むことで、その探索空間を非常に高次元(無限)のRKHSとして定義することができる。
さらに、RKHSで計算された類似度指標を利用して、先行観測状態にサンプリングされた行動系列全体の最適部分を終了する時間枠ウィンドウを適応的に選択するAdaptiveH-技術を用いて、非パラメトリック学習を強化した。
提案手法を検証するため,複数の古典的ベンチマークと,動的に変化する環境を備えたシミュレーションロボットベンチマークを用いて,広範な実験を行った。
全体として,本手法はDDPG法とTD3法を学習性能の点で大きな差で上回っている。
関連論文リスト
- Stabilizing Policy Gradients for Stochastic Differential Equations via
Consistency with Perturbation Process [12.374297377958413]
我々は、ディープニューラルネットワークパラメータ化微分方程式(SDE)の最適化に焦点をあてる。
我々は、SDEが関連する摂動過程と整合するように制約することを提案する。
我々のフレームワークは、SDEを効果的かつ効率的に訓練するためのポリシー勾配法を多目的に選択する。
論文 参考訳(メタデータ) (2024-03-07T02:24:45Z) - Beyond Stationarity: Convergence Analysis of Stochastic Softmax Policy
Gradient Methods [0.46040036610482665]
本稿では、動的プログラミングと動的ポリシー勾配というポリシー勾配の組み合わせを紹介し、パラメータを時間内に後方にトレーニングする。
動的ポリシー勾配トレーニングを使用することで、改善された収束境界に反映される有限時間問題の構造をよりうまく活用できることが判明した。
論文 参考訳(メタデータ) (2023-10-04T09:21:01Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Near Optimal Policy Optimization via REPS [33.992374484681704]
emphrelative entropy policy search (reps) は多くのシミュレーションと実世界のロボットドメインでポリシー学習に成功した。
勾配に基づく解法を用いる場合、REPSの性能には保証がない。
最適規則化ポリシーに好適な収束を維持するためのパラメータ更新を計算するために,基礎となる決定プロセスへの表現的アクセスを利用する手法を提案する。
論文 参考訳(メタデータ) (2021-03-17T16:22:59Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Zeroth-order Deterministic Policy Gradient [116.87117204825105]
ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。
ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。
ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
論文 参考訳(メタデータ) (2020-06-12T16:52:29Z) - Jointly Learning Environments and Control Policies with Projected
Stochastic Gradient Ascent [3.118384520557952]
この問題を解決するために,政策勾配法とモデルに基づく最適化手法を組み合わせた深層強化学習アルゴリズムを提案する。
本質的に,本アルゴリズムはモンテカルロサンプリングと自動微分によって予測されるリターンの勾配を反復的に近似する。
DEPSは、少なくとも3つの環境では、より少ないイテレーションで高いリターンのソリューションを一貫して得ることができる、ということが示されます。
論文 参考訳(メタデータ) (2020-06-02T16:08:07Z) - Evolutionary Stochastic Policy Distillation [139.54121001226451]
本稿では,GCRS課題を解決するための進化的政策蒸留法(ESPD)を提案する。
ESPDは、政策蒸留(PD)技術により、ターゲットポリシーを一連の変種から学習することを可能にする
MuJoCo制御系に基づく実験により,提案手法の学習効率が向上した。
論文 参考訳(メタデータ) (2020-04-27T16:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。