論文の概要: Improve Robustness of Reinforcement Learning against Observation
Perturbations via $l_\infty$ Lipschitz Policy Networks
- arxiv url: http://arxiv.org/abs/2312.08751v1
- Date: Thu, 14 Dec 2023 08:57:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 23:11:36.200460
- Title: Improve Robustness of Reinforcement Learning against Observation
Perturbations via $l_\infty$ Lipschitz Policy Networks
- Title(参考訳): l_\infty$ lipschitz 政策ネットワークによる観測摂動に対する強化学習のロバスト性向上
- Authors: Buqing Nie, Jingtian Ji, Yangqing Fu, Yue Gao
- Abstract要約: 深層強化学習(DRL)は、シーケンシャルな意思決定タスクにおいて顕著な進歩を遂げた。
近年の研究では、DRL剤は観測のわずかな摂動に影響を受けやすいことが判明している。
本稿では、観測摂動に対するDRLポリシーの堅牢性を改善するため、SrtRLと呼ばれる新しい頑健な強化学習法を提案する。
- 参考スコア(独自算出の注目度): 8.39061976254379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Reinforcement Learning (DRL) has achieved remarkable advances in
sequential decision tasks. However, recent works have revealed that DRL agents
are susceptible to slight perturbations in observations. This vulnerability
raises concerns regarding the effectiveness and robustness of deploying such
agents in real-world applications. In this work, we propose a novel robust
reinforcement learning method called SortRL, which improves the robustness of
DRL policies against observation perturbations from the perspective of the
network architecture. We employ a novel architecture for the policy network
that incorporates global $l_\infty$ Lipschitz continuity and provide a
convenient method to enhance policy robustness based on the output margin.
Besides, a training framework is designed for SortRL, which solves given tasks
while maintaining robustness against $l_\infty$ bounded perturbations on the
observations. Several experiments are conducted to evaluate the effectiveness
of our method, including classic control tasks and video games. The results
demonstrate that SortRL achieves state-of-the-art robustness performance
against different perturbation strength.
- Abstract(参考訳): 深層強化学習(drl)は逐次的決定タスクにおいて著しく進歩した。
しかし、最近の研究により、DRL剤は観測におけるわずかな摂動の影響を受けやすいことが判明した。
この脆弱性は、現実世界のアプリケーションにそのようなエージェントをデプロイすることの有効性と堅牢性に関する懸念を引き起こす。
本研究では,ネットワークアーキテクチャの観点から観測摂動に対するDRLポリシーの堅牢性を向上する,SrtRLと呼ばれる新しい頑健な強化学習手法を提案する。
我々は、グローバルな$l_\infty$ Lipschitz連続性を組み込んだポリシーネットワークに新しいアーキテクチャを採用し、出力マージンに基づいてポリシーロバスト性を高めるための便利な方法を提供する。
さらに、squtrl用にトレーニングフレームワークが設計されており、観測値の$l_\infty$の有界摂動に対して堅牢性を維持しながら、所定のタスクを解決している。
本手法の有効性を評価するために,クラシック制御タスクやビデオゲームなどいくつかの実験を行った。
その結果,異なる摂動強度に対してsqutrlは最先端のロバスト性性能を達成できた。
関連論文リスト
- Enhancing Robustness in Deep Reinforcement Learning: A Lyapunov Exponent Approach [1.519321208145928]
本稿では,決定論的連続制御タスクにおいて,深部RLポリシーの単一状態への摂動について検討する。
システム状態に対する小さな摂動がその後の状態と報酬軌道に大きな影響を与えるため、RLポリシーは決定論的にカオスとなる可能性がある。
本稿では,最大リアプノフ指数正規化を実装したDreamer V3アーキテクチャの改良を提案する。
論文 参考訳(メタデータ) (2024-10-14T16:16:43Z) - Improving Deep Reinforcement Learning by Reducing the Chain Effect of Value and Policy Churn [14.30387204093346]
ディープニューラルネットワークは、大規模な意思決定問題に対処するために強化学習(RL)強力な関数近似器を提供する。
RLの課題の1つは、出力予測が小さくなり、バッチに含まれない状態に対する各バッチ更新後の制御不能な変更につながることである。
本稿では,既存のDRLアルゴリズムに容易に接続可能なChurn Approximated ReductIoN (CHAIN) と呼ばれる,異なる設定でチェーン効果を低減させる手法を提案する。
論文 参考訳(メタデータ) (2024-09-07T11:08:20Z) - RORL: Robust Offline Reinforcement Learning via Conservative Smoothing [72.8062448549897]
オフライン強化学習は、複雑な意思決定タスクに大量のオフラインデータを活用できる。
現在のオフラインRLアルゴリズムは一般に、値推定とアクション選択のために保守的に設計されている。
本稿では,ロバストオフライン強化学習(RORL)を提案する。
論文 参考訳(メタデータ) (2022-06-06T18:07:41Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Causal Inference Q-Network: Toward Resilient Reinforcement Learning [57.96312207429202]
観測干渉を有する弾力性のあるDRLフレームワークを検討する。
本稿では、因果推論Q-network (CIQ) と呼ばれる因果推論に基づくDRLアルゴリズムを提案する。
実験の結果,提案手法は観測干渉に対して高い性能と高反発性を実現することができた。
論文 参考訳(メタデータ) (2021-02-18T23:50:20Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。