論文の概要: Efficient Adversarial Training without Attacking: Worst-Case-Aware
Robust Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.05927v1
- Date: Wed, 12 Oct 2022 05:24:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 13:25:53.485020
- Title: Efficient Adversarial Training without Attacking: Worst-Case-Aware
Robust Reinforcement Learning
- Title(参考訳): 攻撃を伴わない効果的な対人訓練:ロバスト強化学習の最悪の事例
- Authors: Yongyuan Liang, Yanchao Sun, Ruijie Zheng, Furong Huang
- Abstract要約: Worst-case-aware Robust RL (WocaR-RL) は、深層強化学習のための堅牢なトレーニングフレームワークである。
我々は,WocaR-RLが様々な攻撃により最先端の性能を達成することを示す。
- 参考スコア(独自算出の注目度): 14.702446153750497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies reveal that a well-trained deep reinforcement learning (RL)
policy can be particularly vulnerable to adversarial perturbations on input
observations. Therefore, it is crucial to train RL agents that are robust
against any attacks with a bounded budget. Existing robust training methods in
deep RL either treat correlated steps separately, ignoring the robustness of
long-term rewards, or train the agents and RL-based attacker together, doubling
the computational burden and sample complexity of the training process. In this
work, we propose a strong and efficient robust training framework for RL, named
Worst-case-aware Robust RL (WocaR-RL) that directly estimates and optimizes the
worst-case reward of a policy under bounded l_p attacks without requiring extra
samples for learning an attacker. Experiments on multiple environments show
that WocaR-RL achieves state-of-the-art performance under various strong
attacks, and obtains significantly higher training efficiency than prior
state-of-the-art robust training methods. The code of this work is available at
https://github.com/umd-huang-lab/WocaR-RL.
- Abstract(参考訳): 近年の研究では、よく訓練された深層強化学習(rl)ポリシーは、特に入力観測における敵対的摂動に対して脆弱であることが示されている。
したがって、予算制限のある攻撃に対して堅牢なrlエージェントを訓練することが重要である。
ディープRLの既存の堅牢なトレーニング手法は、関連するステップを別々に扱い、長期的な報酬の堅牢さを無視したり、エージェントとRLベースの攻撃者を訓練したり、トレーニングプロセスの計算負担とサンプルの複雑さを2倍にする。
本研究では,攻撃者の学習に余分なサンプルを必要とせずに,境界付きl_p攻撃下でのポリシーの最悪の報酬を直接見積り,最適化する,Worst-case-aware Robust RL(WocaR-RL)という,RLのための堅牢で効率的なロバストなトレーニングフレームワークを提案する。
複数の環境での実験により、WocaR-RLは様々な強力な攻撃の下で最先端の性能を達成し、従来の最先端の堅牢な訓練方法よりもはるかに高い訓練効率が得られることが示された。
この作業のコードはhttps://github.com/umd-huang-lab/WocaR-RLで公開されている。
関連論文リスト
- BadRL: Sparse Targeted Backdoor Attack Against Reinforcement Learning [37.19070609394519]
強化学習(RL)におけるバックドア攻撃は、これまで攻撃の成功を確実にするために激しい攻撃戦略を採用してきた。
本研究は, トレーニングおよび試験において, 背部毒を多量に投与することに焦点を当てた新しいアプローチであるBadRLを提案する。
私たちのアルゴリズムであるBadRLは、高い攻撃値を持つ状態観測を戦略的に選択し、トレーニングやテスト中にトリガーを注入し、検出の機会を減らす。
論文 参考訳(メタデータ) (2023-12-19T20:29:29Z) - ReRoGCRL: Representation-based Robustness in Goal-Conditioned
Reinforcement Learning [29.868059421372244]
Goal-Conditioned Reinforcement Learning (GCRL) は注目されているが、敵の摂動に対するアルゴリズム的堅牢性はいまだ解明されていない。
まず,敵対的コントラスト攻撃に触発されたセミコントラスト表現攻撃を提案する。
次に,セミコントラスト・アジュメンテーションと感性認識正規化器を組み合わせた適応表現手法を提案する。
論文 参考訳(メタデータ) (2023-12-12T16:05:55Z) - DL-DRL: A double-level deep reinforcement learning approach for
large-scale task scheduling of multi-UAV [65.07776277630228]
分割・征服フレームワーク(DCF)に基づく二重レベル深層強化学習(DL-DRL)手法を提案する。
特に,上層部DRLモデルにおけるエンコーダ・デコーダ構成ポリシネットワークを設計し,タスクを異なるUAVに割り当てる。
また、低レベルDRLモデルにおける別の注意に基づくポリシーネットワークを利用して、各UAVの経路を構築し、実行されたタスク数を最大化する。
論文 参考訳(メタデータ) (2022-08-04T04:35:53Z) - URLB: Unsupervised Reinforcement Learning Benchmark [82.36060735454647]
教師なし強化学習ベンチマーク(URLB)を紹介する。
URLBは2つのフェーズで構成されている。
評価のために3つのドメインから12の連続制御タスクを提供し、8つの主要な教師なしRLメソッドに対してオープンソースコードを提供する。
論文 参考訳(メタデータ) (2021-10-28T15:07:01Z) - Who Is the Strongest Enemy? Towards Optimal and Efficient Evasion
Attacks in Deep RL [14.702446153750497]
本稿では,「アクター」と呼ばれる設計関数と「ディレクタ」と呼ばれるRLベースの学習者との協調により,最適な攻撃を見つけるための新たな攻撃手法を提案する。
提案アルゴリズムであるPA-ADは理論上最適であり,大きな状態空間を持つ環境下での従来のRLに基づく作業よりもはるかに効率的である。
論文 参考訳(メタデータ) (2021-06-09T14:06:53Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。