論文の概要: Context-Based Soft Actor Critic for Environments with Non-stationary
Dynamics
- arxiv url: http://arxiv.org/abs/2105.03310v2
- Date: Mon, 10 May 2021 09:25:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 11:45:07.350947
- Title: Context-Based Soft Actor Critic for Environments with Non-stationary
Dynamics
- Title(参考訳): 非定常力学環境に対する文脈ベースソフトアクター批判
- Authors: Yuan Pu, Shaochen Wang, Xin Yao, Bin Li
- Abstract要約: 本論文では, LC-SAC(Latent Context-based Soft Actor Critic)手法を提案する。
コントラスト予測損失関数を最小化することにより、学習されたコンテキスト変数は、環境ダイナミクスとエージェントの最近の振る舞いに関する情報をキャプチャする。
実験の結果, LC-SAC は MetaWorld ML1 タスクの SAC アルゴリズムよりも優れていた。
- 参考スコア(独自算出の注目度): 8.318823695156974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of deep reinforcement learning methods prone to degenerate
when applied to environments with non-stationary dynamics. In this paper, we
utilize the latent context recurrent encoders motivated by recent Meta-RL
materials, and propose the Latent Context-based Soft Actor Critic (LC-SAC)
method to address aforementioned issues. By minimizing the contrastive
prediction loss function, the learned context variables capture the information
of the environment dynamics and the recent behavior of the agent. Then combined
with the soft policy iteration paradigm, the LC-SAC method alternates between
soft policy evaluation and soft policy improvement until it converges to the
optimal policy. Experimental results show that the performance of LC-SAC is
significantly better than the SAC algorithm on the MetaWorld ML1 tasks whose
dynamics changes drasticly among different episodes, and is comparable to SAC
on the continuous control benchmark task MuJoCo whose dynamics changes slowly
or doesn't change between different episodes. In addition, we also conduct
relevant experiments to determine the impact of different hyperparameter
settings on the performance of the LC-SAC algorithm and give the reasonable
suggestions of hyperparameter setting.
- Abstract(参考訳): 非定常動的環境に適用すると,深層強化学習法の性能は低下する傾向にあった。
本稿では,近年のMeta-RL材料に動機づけられた潜在コンテキスト再帰エンコーダを用いて,上記の問題に対処するための潜在コンテキストベースのソフトアクター批判(LC-SAC)手法を提案する。
コントラスト予測損失関数を最小化することにより、学習されたコンテキスト変数は、環境ダイナミクスとエージェントの最近の振る舞いに関する情報をキャプチャする。
そして、ソフトポリシー反復パラダイムと組み合わさって、lc-sac法は、ソフトポリシー評価とソフトポリシー改善を、最適なポリシーに収束するまで交互に行う。
実験の結果, LC-SACは, 異なるエピソード間で動的に変化するメタワールドML1タスクにおいて, SACアルゴリズムよりも有意に優れており, 動的変化が遅い, 異なるエピソード間で変化しない, 連続制御ベンチマークタスクMuJoCo上でのSACと同等であることがわかった。
さらに,様々なハイパーパラメータ設定がlc-sacアルゴリズムの性能に与える影響を判定するための関連する実験を行い,ハイパーパラメータ設定の合理的な提案を行う。
関連論文リスト
- Markov Balance Satisfaction Improves Performance in Strictly Batch Offline Imitation Learning [8.92571113137362]
本研究では,模倣者が観察行動にのみ依存し,学習中に環境相互作用を起こさないシナリオに対処する。
State-of-the-art(SOTA IL)の手法とは異なり、このアプローチはより制約のある現実的な環境で動作することで従来のILの制限に対処する。
我々は多くのSOTA ILアルゴリズムと比較して実験性能が一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-08-17T07:17:19Z) - HarmoDT: Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [72.25707314772254]
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
このフレームワークの上位レベルは、調和部分空間を規定するタスク固有のマスクの学習に特化しており、内部レベルは、統一されたポリシーの全体的なパフォーマンスを高めるためにパラメータの更新に重点を置いている。
論文 参考訳(メタデータ) (2024-05-28T11:41:41Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Actor-Critic Reinforcement Learning with Phased Actor [10.577516871906816]
本稿では,政策勾配推定を改善するために,PAAC法における新しい段階的アクターを提案する。
PAACはアクターアップデートで$Q$とTDエラーの両方を処理している。
その結果,PAACは総コスト,学習ばらつき,堅牢性,学習速度,成功率などによって,大幅な性能向上をもたらすことがわかった。
論文 参考訳(メタデータ) (2024-04-18T01:27:31Z) - Non-Parametric Stochastic Policy Gradient with Strategic Retreat for
Non-Stationary Environment [1.5229257192293197]
非パラメトリックな最適制御ポリシのシーケンスを学習するための体系的な方法論を提案する。
本手法はDDPG法とTD3法を学習性能の点で大きな差で上回っている。
論文 参考訳(メタデータ) (2022-03-24T21:41:13Z) - Soft Actor-Critic with Cross-Entropy Policy Optimization [0.45687771576879593]
クロスエントロピーポリシー最適化(SAC-CEPO)を用いたソフトアクタ臨界法を提案する。
SAC-CEPOは、CEM(Cross-Entropy Method)を使用して、SACのポリシーネットワークを最適化する。
SAC-CEPOは元のSACと競合する性能を示す。
論文 参考訳(メタデータ) (2021-12-21T11:38:12Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Improved Soft Actor-Critic: Mixing Prioritized Off-Policy Samples with
On-Policy Experience [9.06635747612495]
ソフト・アクター・クリティカル(Soft Actor-Critic, SAC)は、アクター・アクター・アクターの強化学習アルゴリズムである。
SACは、期待されるリターンとエントロピーの間のトレードオフを最大化することでポリシーを訓練する。
一連の連続制御ベンチマークタスクで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2021-09-24T06:46:28Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。