論文の概要: Robust Reinforcement Learning in Continuous Control Tasks with
Uncertainty Set Regularization
- arxiv url: http://arxiv.org/abs/2207.02016v4
- Date: Tue, 5 Dec 2023 13:44:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 20:40:31.236859
- Title: Robust Reinforcement Learning in Continuous Control Tasks with
Uncertainty Set Regularization
- Title(参考訳): 不確実性セット正規化を伴う連続制御タスクにおけるロバスト強化学習
- Authors: Yuan Zhang, Jianhong Wang, Joschka Boedecker
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、環境摂動下での一般化と堅牢性を欠いていると認識されている。
我々は $textbfU$ncertainty $textbfS$et $textbfR$egularizer (USR) という新しい正規化器を提案する。
- 参考スコア(独自算出の注目度): 17.322284328945194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) is recognized as lacking generalization and
robustness under environmental perturbations, which excessively restricts its
application for real-world robotics. Prior work claimed that adding
regularization to the value function is equivalent to learning a robust policy
with uncertain transitions. Although the regularization-robustness
transformation is appealing for its simplicity and efficiency, it is still
lacking in continuous control tasks. In this paper, we propose a new
regularizer named $\textbf{U}$ncertainty $\textbf{S}$et $\textbf{R}$egularizer
(USR), by formulating the uncertainty set on the parameter space of the
transition function. In particular, USR is flexible enough to be plugged into
any existing RL framework. To deal with unknown uncertainty sets, we further
propose a novel adversarial approach to generate them based on the value
function. We evaluate USR on the Real-world Reinforcement Learning (RWRL)
benchmark, demonstrating improvements in the robust performance for perturbed
testing environments.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、環境摂動下での一般化と堅牢性を欠いていると認識されており、現実世界のロボット工学への応用を過度に制限している。
以前は、値関数に正規化を追加することは、不確実な遷移を伴う堅牢なポリシーを学ぶことと等価であると主張した。
正規化・ロバスト性変換はその単純さと効率をアピールしているが、それでも連続制御タスクには欠けている。
本稿では、遷移関数のパラメータ空間上の不確かさを定式化することにより、 $\textbf{U}$ncertainty $\textbf{S}$et $\textbf{R}$egularizer (USR) という新しい正規化器を提案する。
特にUSRは、既存のRLフレームワークにプラグインできるほど柔軟です。
未知の不確実性集合に対処するために,我々はさらに,値関数に基づいてそれを生成するための新しい敵対的アプローチを提案する。
実世界の強化学習(rwrl)ベンチマークでusrを評価し,摂動テスト環境におけるロバスト性能の改善を実証した。
関連論文リスト
- Natural Actor-Critic for Robust Reinforcement Learning with Function
Approximation [20.43657369407846]
本研究では,トレーニングシミュレータとテスト環境間のモデルミスマッチに対して頑健な評価政策を決定することを目的として,ロバスト強化学習(RL)について検討する。
本稿では2つの新しい不確実性集合の定式化を提案し,その1つは二重サンプリングに基づくものであり,もう1つは積分確率計量に基づくものである。
複数の MuJoCo 環境と実世界の TurtleBot ナビゲーションタスクにおいて,提案した RNAC アプローチによって学習されたポリシーの堅牢性を示す。
論文 参考訳(メタデータ) (2023-07-17T22:10:20Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - AutoCost: Evolving Intrinsic Cost for Zero-violation Reinforcement
Learning [3.4806267677524896]
我々は、制約付きRLがゼロ違反性能を達成するのに役立つコスト関数を自動的に検索するフレームワークであるAutoCostを提案する。
我々は,我々のコスト関数を用いた補助エージェントの性能を,同じ政策学習者を用いたベースラインエージェントに付加的な内在的コストを与えるために,外在的コストのみを伴って比較した。
論文 参考訳(メタデータ) (2023-01-24T22:51:29Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [52.85536740465277]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z) - Distributional Soft Actor-Critic: Off-Policy Reinforcement Learning for
Addressing Value Estimation Errors [13.534873779043478]
本稿では,Q値過大評価を緩和し,ポリシー性能を向上させるための分散型ソフトアクター・クリティック(DSAC)アルゴリズムを提案する。
我々は,MuJoCo連続制御タスクのスイート上でDSACを評価し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-01-09T02:27:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。