論文の概要: Robust Deep Reinforcement Learning through Bootstrapped Opportunistic
Curriculum
- arxiv url: http://arxiv.org/abs/2206.10057v1
- Date: Tue, 21 Jun 2022 00:40:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 18:19:34.226173
- Title: Robust Deep Reinforcement Learning through Bootstrapped Opportunistic
Curriculum
- Title(参考訳): ブートストラップ型オポチュニティカリキュラムによるロバスト深層強化学習
- Authors: Junlin Wu and Yevgeniy Vorobeychik
- Abstract要約: 頑健な強化学習のためのフレキシブルな対角学習フレームワークを提案する。
本フレームワークは,各カリキュラムフェーズのブートストラップと,前フェーズの複数実行から得られる高品質なソリューションとを組み合わせ,カリキュラムを前向きにスキップする,という2つの考え方を組み合わせたものである。
実験の結果,提案したBCLフレームワークは,学習方針の頑健さを対向的摂動に対して劇的に向上させることができることがわかった。
- 参考スコア(独自算出の注目度): 28.24410786855462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite considerable advances in deep reinforcement learning, it has been
shown to be highly vulnerable to adversarial perturbations to state
observations. Recent efforts that have attempted to improve adversarial
robustness of reinforcement learning can nevertheless tolerate only very small
perturbations, and remain fragile as perturbation size increases. We propose
Bootstrapped Opportunistic Adversarial Curriculum Learning (BCL), a novel
flexible adversarial curriculum learning framework for robust reinforcement
learning. Our framework combines two ideas: conservatively bootstrapping each
curriculum phase with highest quality solutions obtained from multiple runs of
the previous phase, and opportunistically skipping forward in the curriculum.
In our experiments we show that the proposed BCL framework enables dramatic
improvements in robustness of learned policies to adversarial perturbations.
The greatest improvement is for Pong, where our framework yields robustness to
perturbations of up to 25/255; in contrast, the best existing approach can only
tolerate adversarial noise up to 5/255. Our code is available at:
https://github.com/jlwu002/BCL.
- Abstract(参考訳): 深い強化学習の進歩にもかかわらず、国家観測に対する敵の摂動に対して非常に脆弱であることが示されている。
強化学習の対向的堅牢性を向上しようとする最近の試みは、非常に小さな摂動のみを許容し、摂動サイズが増加するにつれて脆弱である。
頑健な強化学習のためのフレキシブルな対数カリキュラム学習フレームワークであるBootstrapped Opportunistic Adversarial Curriculum Learning (BCL)を提案する。
本フレームワークは,各カリキュラムフェーズの保守的ブートストラップと,前フェーズの複数実行から得られる高品質なソリューションとを組み合わせ,カリキュラムを前向きにスキップする。
実験の結果,提案するBCLフレームワークにより,学習方針の頑健さと対向的摂動を劇的に改善できることがわかった。
最も大きな改善はpongであり、我々のフレームワークは最大25/255の摂動に対して堅牢性をもたらします。
私たちのコードは、https://github.com/jlwu002/BCLで利用可能です。
関連論文リスト
- Towards Robust Knowledge Unlearning: An Adversarial Framework for Assessing and Improving Unlearning Robustness in Large Language Models [19.015202590038996]
我々は、未学習モデルを攻撃する動的かつ自動化されたフレームワークであるDynamic Unlearning Attack (DUA)を設計する。
学習過程の堅牢性を効果的に向上する普遍的な枠組みであるLatent Adrial Unlearning (LAU)を提案する。
LAUは学習効率を53.5%以上改善し、近隣の知識の11.6%以下に減らし、モデルの一般的な能力にはほとんど影響を与えないことを示した。
論文 参考訳(メタデータ) (2024-08-20T09:36:04Z) - Two-Step Offline Preference-Based Reinforcement Learning with Constrained Actions [38.48223545539604]
PRCと呼ばれる新しい2段階学習手法を開発した。
我々は,ロボット制御環境における各種データセットの学習効率を実証的に検証した。
論文 参考訳(メタデータ) (2023-12-30T21:37:18Z) - Enhancing Adversarial Training with Feature Separability [52.39305978984573]
本稿では,特徴分離性を備えた対人訓練(ATFS)により,クラス内特徴の類似性を向上し,クラス間特徴分散を増大させることができる,新たな対人訓練グラフ(ATG)を提案する。
包括的な実験を通じて、提案したATFSフレームワークがクリーンかつロバストなパフォーマンスを著しく改善することを示した。
論文 参考訳(メタデータ) (2022-05-02T04:04:23Z) - Enhancing Adversarial Robustness for Deep Metric Learning [77.75152218980605]
深層学習モデルの対角的堅牢性を改善する必要がある。
過度にハードな例によるモデル崩壊を避けるため、既存の守備隊はmin-max対逆訓練を中止した。
本研究では, 対人訓練において, 一定の硬度までトレーニング三重奏を効率よく摂動させる硬度操作を提案する。
論文 参考訳(メタデータ) (2022-03-02T22:27:44Z) - When Does Contrastive Learning Preserve Adversarial Robustness from
Pretraining to Finetuning? [99.4914671654374]
本稿では,新しい逆比較事前学習フレームワークAdvCLを提案する。
本稿では,AdvCLがモデル精度と微調整効率を損なうことなく,タスク間の堅牢性伝達性を向上できることを示す。
論文 参考訳(メタデータ) (2021-11-01T17:59:43Z) - Where Did You Learn That From? Surprising Effectiveness of Membership
Inference Attacks Against Temporally Correlated Data in Deep Reinforcement
Learning [114.9857000195174]
深い強化学習を産業的に広く採用する上での大きな課題は、プライバシー侵害の潜在的な脆弱性である。
本稿では, 深層強化学習アルゴリズムの脆弱性を検証し, メンバーシップ推論攻撃に適応する対戦型攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-08T23:44:57Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z) - Corruption-robust exploration in episodic reinforcement learning [76.19192549843727]
本研究は, システムにおける報酬と遷移確率の両面において, 敵対的腐敗下での多段階・多段階・多段階強化学習について検討した。
我々の枠組みは、汚職の欠如をほぼ最適に後悔する効率的なアルゴリズムをもたらす。
特に,本研究は,根本的強化学習のためのBandit-Feedbackモデルにおいて,純粋にI.d.遷移からの逸脱を保証した最初のサブ線形後悔の保証を提供する。
論文 参考訳(メタデータ) (2019-11-20T03:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。