論文の概要: Context-Based Soft Actor Critic for Environments with Non-stationary
Dynamics
- arxiv url: http://arxiv.org/abs/2105.03310v2
- Date: Mon, 10 May 2021 09:25:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 11:45:07.350947
- Title: Context-Based Soft Actor Critic for Environments with Non-stationary
Dynamics
- Title(参考訳): 非定常力学環境に対する文脈ベースソフトアクター批判
- Authors: Yuan Pu, Shaochen Wang, Xin Yao, Bin Li
- Abstract要約: 本論文では, LC-SAC(Latent Context-based Soft Actor Critic)手法を提案する。
コントラスト予測損失関数を最小化することにより、学習されたコンテキスト変数は、環境ダイナミクスとエージェントの最近の振る舞いに関する情報をキャプチャする。
実験の結果, LC-SAC は MetaWorld ML1 タスクの SAC アルゴリズムよりも優れていた。
- 参考スコア(独自算出の注目度): 8.318823695156974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of deep reinforcement learning methods prone to degenerate
when applied to environments with non-stationary dynamics. In this paper, we
utilize the latent context recurrent encoders motivated by recent Meta-RL
materials, and propose the Latent Context-based Soft Actor Critic (LC-SAC)
method to address aforementioned issues. By minimizing the contrastive
prediction loss function, the learned context variables capture the information
of the environment dynamics and the recent behavior of the agent. Then combined
with the soft policy iteration paradigm, the LC-SAC method alternates between
soft policy evaluation and soft policy improvement until it converges to the
optimal policy. Experimental results show that the performance of LC-SAC is
significantly better than the SAC algorithm on the MetaWorld ML1 tasks whose
dynamics changes drasticly among different episodes, and is comparable to SAC
on the continuous control benchmark task MuJoCo whose dynamics changes slowly
or doesn't change between different episodes. In addition, we also conduct
relevant experiments to determine the impact of different hyperparameter
settings on the performance of the LC-SAC algorithm and give the reasonable
suggestions of hyperparameter setting.
- Abstract(参考訳): 非定常動的環境に適用すると,深層強化学習法の性能は低下する傾向にあった。
本稿では,近年のMeta-RL材料に動機づけられた潜在コンテキスト再帰エンコーダを用いて,上記の問題に対処するための潜在コンテキストベースのソフトアクター批判(LC-SAC)手法を提案する。
コントラスト予測損失関数を最小化することにより、学習されたコンテキスト変数は、環境ダイナミクスとエージェントの最近の振る舞いに関する情報をキャプチャする。
そして、ソフトポリシー反復パラダイムと組み合わさって、lc-sac法は、ソフトポリシー評価とソフトポリシー改善を、最適なポリシーに収束するまで交互に行う。
実験の結果, LC-SACは, 異なるエピソード間で動的に変化するメタワールドML1タスクにおいて, SACアルゴリズムよりも有意に優れており, 動的変化が遅い, 異なるエピソード間で変化しない, 連続制御ベンチマークタスクMuJoCo上でのSACと同等であることがわかった。
さらに,様々なハイパーパラメータ設定がlc-sacアルゴリズムの性能に与える影響を判定するための関連する実験を行い,ハイパーパラメータ設定の合理的な提案を行う。
関連論文リスト
- A Thorough Examination of Decoding Methods in the Era of LLMs [76.30313058201182]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。
本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。
その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-10T11:14:53Z) - Max-Min Off-Policy Actor-Critic Method Focusing on Worst-Case Robustness
to Model Misspecification [22.241676350331968]
本研究は,不確実性パラメータを含むシミュレーション環境とその可能な値の集合を含むシナリオに焦点を当てる。
本研究の目的は,不確実性パラメータセット上での最悪の性能を最適化し,対応する実環境における性能を保証することである。
マルチジョイント・ダイナミックスと接触(MuJoCo)環境の実験により,提案手法は複数のベースライン・アプローチに比較して最悪の性能を示した。
論文 参考訳(メタデータ) (2022-11-07T10:18:31Z) - Evolving Pareto-Optimal Actor-Critic Algorithms for Generalizability and
Stability [67.8426046908398]
汎用性と安定性は,実世界における強化学習(RL)エージェントの運用において重要な2つの目的である。
本稿では,アクター・クリティック・ロス関数の自動設計法であるMetaPGを提案する。
論文 参考訳(メタデータ) (2022-04-08T20:46:16Z) - Non-Parametric Stochastic Policy Gradient with Strategic Retreat for
Non-Stationary Environment [1.5229257192293197]
非パラメトリックな最適制御ポリシのシーケンスを学習するための体系的な方法論を提案する。
本手法はDDPG法とTD3法を学習性能の点で大きな差で上回っている。
論文 参考訳(メタデータ) (2022-03-24T21:41:13Z) - Soft Actor-Critic with Cross-Entropy Policy Optimization [0.45687771576879593]
クロスエントロピーポリシー最適化(SAC-CEPO)を用いたソフトアクタ臨界法を提案する。
SAC-CEPOは、CEM(Cross-Entropy Method)を使用して、SACのポリシーネットワークを最適化する。
SAC-CEPOは元のSACと競合する性能を示す。
論文 参考訳(メタデータ) (2021-12-21T11:38:12Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Improved Soft Actor-Critic: Mixing Prioritized Off-Policy Samples with
On-Policy Experience [9.06635747612495]
ソフト・アクター・クリティカル(Soft Actor-Critic, SAC)は、アクター・アクター・アクターの強化学習アルゴリズムである。
SACは、期待されるリターンとエントロピーの間のトレードオフを最大化することでポリシーを訓練する。
一連の連続制御ベンチマークタスクで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2021-09-24T06:46:28Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Band-limited Soft Actor Critic Model [15.11069042369131]
SAC(Soft Actor Critic)アルゴリズムは複雑なシミュレーション環境において顕著な性能を示す。
我々は、このアイデアをさらに一歩進めて、対象の批判的空間分解能を人工的にバンドリミットする。
線形の場合、閉形式解を導出し、バンドリミットが状態-作用値近似の低周波数成分間の相互依存性を減少させることを示す。
論文 参考訳(メタデータ) (2020-06-19T22:52:43Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。