論文の概要: CAMP in the Odyssey: Provably Robust Reinforcement Learning with Certified Radius Maximization
- arxiv url: http://arxiv.org/abs/2501.17667v1
- Date: Wed, 29 Jan 2025 14:08:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:54:06.001886
- Title: CAMP in the Odyssey: Provably Robust Reinforcement Learning with Certified Radius Maximization
- Title(参考訳): オデュッセイにおけるCAMP: 認証ラディウス最大化によるロバスト強化学習の可能性
- Authors: Derui Wang, Kristen Moore, Diksha Goel, Minjune Kim, Gang Li, Yang Li, Robin Doss, Minhui Xue, Bo Li, Seyit Camtepe, Liming Zhu,
- Abstract要約: 深層強化学習(DRL)は、動的環境における強い性能のため、制御と意思決定タスクに広く採用されている。
近年の取り組みは、DRLエージェントが敵の環境で達成したリターンの厳密な理論的保証を確立することで、ロバストネスの問題に対処することに焦点を当てている。
我々は、DRLポリシーを強化するために、texttCertified-rtextttAdius-textttMaximizing textttPolicy (texttt CAMP)トレーニングと呼ばれる新しいパラダイムを導入する。
- 参考スコア(独自算出の注目度): 27.55377940017779
- License:
- Abstract: Deep reinforcement learning (DRL) has gained widespread adoption in control and decision-making tasks due to its strong performance in dynamic environments. However, DRL agents are vulnerable to noisy observations and adversarial attacks, and concerns about the adversarial robustness of DRL systems have emerged. Recent efforts have focused on addressing these robustness issues by establishing rigorous theoretical guarantees for the returns achieved by DRL agents in adversarial settings. Among these approaches, policy smoothing has proven to be an effective and scalable method for certifying the robustness of DRL agents. Nevertheless, existing certifiably robust DRL relies on policies trained with simple Gaussian augmentations, resulting in a suboptimal trade-off between certified robustness and certified return. To address this issue, we introduce a novel paradigm dubbed \texttt{C}ertified-r\texttt{A}dius-\texttt{M}aximizing \texttt{P}olicy (\texttt{CAMP}) training. \texttt{CAMP} is designed to enhance DRL policies, achieving better utility without compromising provable robustness. By leveraging the insight that the global certified radius can be derived from local certified radii based on training-time statistics, \texttt{CAMP} formulates a surrogate loss related to the local certified radius and optimizes the policy guided by this surrogate loss. We also introduce \textit{policy imitation} as a novel technique to stabilize \texttt{CAMP} training. Experimental results demonstrate that \texttt{CAMP} significantly improves the robustness-return trade-off across various tasks. Based on the results, \texttt{CAMP} can achieve up to twice the certified expected return compared to that of baselines. Our code is available at https://github.com/NeuralSec/camp-robust-rl.
- Abstract(参考訳): 深層強化学習(DRL)は、動的環境における強い性能のため、制御と意思決定タスクに広く採用されている。
しかし、DRLエージェントはノイズのある観測や敵の攻撃に弱いため、DRLシステムの敵の堅牢性に対する懸念が浮上している。
近年の取り組みは、DRLエージェントが敵の環境で達成したリターンの厳密な理論的保証を確立することで、これらのロバスト性問題に対処することに焦点を当てている。
これらの手法のうち、ポリシースムーシングはDRLエージェントの堅牢性を証明するための効果的でスケーラブルな手法であることが証明されている。
それでも、既存の確実なDRLは、単純なガウス的な拡張で訓練されたポリシーに依存しており、その結果、認証された堅牢性と認定されたリターンとの間には、準最適のトレードオフが生じる。
この問題に対処するため,本稿では,新しいパラダイムである \texttt{C}ertified-r\texttt{A}dius-\texttt{M}aximizing \texttt{P}olicy (\texttt{CAMP}) を導入する。
\texttt{CAMP}はDRLポリシーを強化し、証明可能な堅牢性を損なうことなく、より良いユーティリティを実現するように設計されている。
大域的認定半径は、訓練時間統計に基づく局所的認定半径から導出できるという知見を活用することにより、 \texttt{CAMP} は、局所的認定半径に関連する代理損失を定式化し、この代理損失によって導かれるポリシーを最適化する。
また,<texttt{CAMP} トレーニングを安定化させる新しい手法として \textit{policy mimicion を導入する。
実験の結果, <texttt{CAMP} は様々なタスク間のロバストネス・リターントレードオフを大幅に改善することが示された。
結果に基づいて、 \texttt{CAMP} はベースラインの2倍の期待リターンを達成できる。
私たちのコードはhttps://github.com/NeuralSec/camp-robust-rlで公開しています。
関連論文リスト
- Improve Robustness of Reinforcement Learning against Observation
Perturbations via $l_\infty$ Lipschitz Policy Networks [8.39061976254379]
深層強化学習(DRL)は、シーケンシャルな意思決定タスクにおいて顕著な進歩を遂げた。
近年の研究では、DRL剤は観測のわずかな摂動に影響を受けやすいことが判明している。
本稿では、観測摂動に対するDRLポリシーの堅牢性を改善するため、SrtRLと呼ばれる新しい頑健な強化学習法を提案する。
論文 参考訳(メタデータ) (2023-12-14T08:57:22Z) - COPA: Certifying Robust Policies for Offline Reinforcement Learning
against Poisoning Attacks [49.15885037760725]
本研究は, 中毒発生時におけるオフライン強化学習(RL)の堅牢性を検証することに注力する。
本報告では, 許容可能な毒素トラジェクトリの数を認証する最初の認証フレームワークであるCOPAを提案する。
提案手法のいくつかは理論的に厳密であり,一部はNP-Complete問題であることを示す。
論文 参考訳(メタデータ) (2022-03-16T05:02:47Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - CROP: Certifying Robust Policies for Reinforcement Learning through
Functional Smoothing [41.093241772796475]
本稿では, 逆境状態の摂動に対する強化学習(CROP)のためのロバスト政策の認定のための最初の枠組みを提案する。
本研究では,国家ごとの行動の堅牢性と累積報酬の低限界の2種類のロバスト性認定基準を提案する。
論文 参考訳(メタデータ) (2021-06-17T07:58:32Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。