論文の概要: Deep Reinforcement Learning with Robust and Smooth Policy
- arxiv url: http://arxiv.org/abs/2003.09534v4
- Date: Sat, 15 Aug 2020 02:20:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 10:16:48.170552
- Title: Deep Reinforcement Learning with Robust and Smooth Policy
- Title(参考訳): 頑健かつ円滑な方針による深層強化学習
- Authors: Qianli Shen, Yan Li, Haoming Jiang, Zhaoran Wang, Tuo Zhao
- Abstract要約: 我々は、国家に対して円滑に振る舞う円滑な政策を学ぶことを提案する。
textbfSmooth textbfRegularized textbfReinforcement textbfLearning(textbfSR2textbfL$)という新しいフレームワークを開発し、スムーズな正規化によってポリシーを訓練する。
このような正規化は、探索空間を効果的に制限し、学習ポリシーの滑らかさを強制する。
- 参考スコア(独自算出の注目度): 90.78795857181727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (RL) has achieved great empirical successes in
various domains. However, the large search space of neural networks requires a
large amount of data, which makes the current RL algorithms not sample
efficient. Motivated by the fact that many environments with continuous state
space have smooth transitions, we propose to learn a smooth policy that behaves
smoothly with respect to states. We develop a new framework -- \textbf{S}mooth
\textbf{R}egularized \textbf{R}einforcement \textbf{L}earning
($\textbf{SR}^2\textbf{L}$), where the policy is trained with
smoothness-inducing regularization. Such regularization effectively constrains
the search space, and enforces smoothness in the learned policy. Moreover, our
proposed framework can also improve the robustness of policy against
measurement error in the state space, and can be naturally extended to
distribubutionally robust setting. We apply the proposed framework to both
on-policy (TRPO) and off-policy algorithm (DDPG). Through extensive
experiments, we demonstrate that our method achieves improved sample efficiency
and robustness.
- Abstract(参考訳): deep reinforcement learning (rl) は様々な分野で大きな成功を収めている。
しかし、ニューラルネットワークの膨大な検索スペースには大量のデータが必要であるため、現在のRLアルゴリズムはサンプリング効率が良くない。
連続状態空間を持つ多くの環境が滑らかな遷移を持つという事実に触発され、状態に関してスムーズに振る舞うスムーズなポリシーを学ぶことを提案する。
新しいフレームワーク - \textbf{S}mooth \textbf{R}egularized \textbf{R}einforcement \textbf{L}earning ($\textbf{SR}^2\textbf{L}$) を開発し、スムーズな正規化によってポリシーを訓練する。
このような正規化は探索空間を効果的に制限し、学習方針の滑らかさを強制する。
さらに,提案フレームワークは,状態空間における測定誤差に対するポリシの堅牢性も向上し,分散的にロバストな設定に自然に拡張することができる。
提案手法は, オンポジー(TRPO)とオフポジーアルゴリズム(DDPG)の両方に適用する。
広範囲な実験を通して,本手法が試料効率と堅牢性を向上させることを実証した。
関連論文リスト
- Supported Trust Region Optimization for Offline Reinforcement Learning [59.43508325943592]
本稿では,行動方針の支持範囲内で制約された政策を用いて信頼地域政策の最適化を行う,信頼地域最適化(STR)を提案する。
近似やサンプリング誤差を仮定すると、STRはデータセットの最適サポート制約ポリシーに収束するまで厳密なポリシー改善を保証する。
論文 参考訳(メタデータ) (2023-11-15T13:16:16Z) - Robust Multi-Agent Reinforcement Learning via Adversarial
Regularization: Theoretical Foundation and Stable Algorithms [79.61176746380718]
MARL(Multi-Agent Reinforcement Learning)はいくつかの領域で有望な結果を示している。
MARLポリシーは、しばしば堅牢性を欠き、環境の小さな変化に敏感である。
政策のリプシッツ定数を制御することにより、ロバスト性を得ることができることを示す。
政策のリプシッツ連続性を促進する新しい堅牢なMARLフレームワークであるERNIEを提案する。
論文 参考訳(メタデータ) (2023-10-16T20:14:06Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Learning Optimal Antenna Tilt Control Policies: A Contextual Linear
Bandit Approach [65.27783264330711]
セルラーネットワークにおけるアンテナ傾きの制御は、ネットワークのカバレッジとキャパシティの間の効率的なトレードオフに到達するために不可欠である。
既存のデータから最適な傾き制御ポリシーを学習するアルゴリズムを考案する。
従来のルールベースの学習アルゴリズムよりもはるかに少ないデータサンプルを用いて最適な傾き更新ポリシーを作成できることを示す。
論文 参考訳(メタデータ) (2022-01-06T18:24:30Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z) - Escaping from Zero Gradient: Revisiting Action-Constrained Reinforcement
Learning via Frank-Wolfe Policy Optimization [5.072893872296332]
アクション制約強化学習(RL)は、さまざまな現実世界のアプリケーションで広く使用されているアプローチです。
本稿では,政策パラメータ更新から行動制約を分離する学習アルゴリズムを提案する。
提案アルゴリズムは,様々な制御タスクにおけるベンチマーク手法を有意に上回っていることを示した。
論文 参考訳(メタデータ) (2021-02-22T14:28:03Z) - Robust Reinforcement Learning using Least Squares Policy Iteration with
Provable Performance Guarantees [3.8073142980733]
本稿では,ロバストマルコフ決定過程(RMDP)におけるモデルレス強化学習の課題について述べる。
本稿では、まず、ポリシー評価のための多段階オンラインモデルフリー学習アルゴリズムであるRobust Least Squares Policy Evaluationアルゴリズムを提案する。
次に,ロバスト・ラスト・スクエアズ・ポリシー・イテレーション (RLSPI) アルゴリズムを提案し,ロバスト・ラスト・スクエアズ・ポリシーを最適に学習する。
論文 参考訳(メタデータ) (2020-06-20T16:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。