論文の概要: Beyond Worst-case Attacks: Robust RL with Adaptive Defense via
Non-dominated Policies
- arxiv url: http://arxiv.org/abs/2402.12673v1
- Date: Tue, 20 Feb 2024 02:45:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 17:38:43.928324
- Title: Beyond Worst-case Attacks: Robust RL with Adaptive Defense via
Non-dominated Policies
- Title(参考訳): 最悪の場合を超える攻撃:非支配的政策による適応防御を備えたロバストRL
- Authors: Xiangyu Liu, Chenghao Deng, Yanchao Sun, Yongyuan Liang, Furong Huang
- Abstract要約: 我々は、よく受け入れられた国家アドリアック・アタック・モデルの下で、政策の堅牢性について研究する。
本稿では,テクティトノン非推奨ポリシーを反復的に発見するための新しい学習時間アルゴリズムを提案する。
Mujoco subroutineの実証検証は、自然および堅牢な性能の観点から、我々のアプローチの優位性を裏付けるものである。
- 参考スコア(独自算出の注目度): 42.709038827974375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In light of the burgeoning success of reinforcement learning (RL) in diverse
real-world applications, considerable focus has been directed towards ensuring
RL policies are robust to adversarial attacks during test time. Current
approaches largely revolve around solving a minimax problem to prepare for
potential worst-case scenarios. While effective against strong attacks, these
methods often compromise performance in the absence of attacks or the presence
of only weak attacks. To address this, we study policy robustness under the
well-accepted state-adversarial attack model, extending our focus beyond only
worst-case attacks. We first formalize this task at test time as a regret
minimization problem and establish its intrinsic hardness in achieving
sublinear regret when the baseline policy is from a general continuous policy
class, $\Pi$. This finding prompts us to \textit{refine} the baseline policy
class $\Pi$ prior to test time, aiming for efficient adaptation within a finite
policy class $\Tilde{\Pi}$, which can resort to an adversarial bandit
subroutine. In light of the importance of a small, finite $\Tilde{\Pi}$, we
propose a novel training-time algorithm to iteratively discover
\textit{non-dominated policies}, forming a near-optimal and minimal
$\Tilde{\Pi}$, thereby ensuring both robustness and test-time efficiency.
Empirical validation on the Mujoco corroborates the superiority of our approach
in terms of natural and robust performance, as well as adaptability to various
attack scenarios.
- Abstract(参考訳): 様々な実世界の応用において強化学習(RL)が急速に成功していることを踏まえ、RLポリシーがテスト時間中に敵の攻撃に対して堅牢であることを保証するために、かなりの焦点が向けられている。
現在のアプローチは、潜在的な最悪のシナリオに備えて、ミニマックス問題の解決を中心に展開されている。
強力な攻撃に対して効果があるが、攻撃がない場合や弱い攻撃がある場合のみの性能を損なうことが多い。
これに対処するため,我々は,十分に認識された国家対向攻撃モデルの下での政策の堅牢性を研究し,最悪の攻撃のみに留まらず,我々の焦点を延ばす。
まず、この課題を最小化問題としてテスト時に定式化し、基本方針が一般的な連続政策クラスである$\Pi$のとき、その本質的な困難性を確立する。
この発見により、テスト時間の前にベースラインポリシークラス$\pi$を \textit{refine} に設定し、反対のbanditサブルーチンを頼りにできる有限ポリシークラス$\tilde{\pi}$内で効率的な適応を目指しています。
有限の小さな$\Tilde{\Pi}$の重要さを鑑みて、我々は \textit{non-dominated policy} を反復的に発見し、ほぼ最適で最小の$\Tilde{\Pi}$を形成する新しい訓練時間アルゴリズムを提案し、堅牢性とテスト時間効率の両方を保証する。
mujocoの実証的検証は、我々のアプローチの、自然で堅牢なパフォーマンスと様々な攻撃シナリオへの適応性の観点からの優位性を裏付けています。
関連論文リスト
- Belief-Enriched Pessimistic Q-Learning against Adversarial State
Perturbations [5.076419064097735]
近年の研究では、十分に訓練されたRL剤は、試験段階における状態観察を戦略的に摂動させることで容易に操作できることが示されている。
既存のソリューションは、摂動に対する訓練されたポリシーの滑らかさを改善するために正規化用語を導入するか、代わりにエージェントのポリシーと攻撃者のポリシーを訓練する。
本稿では,エージェントの真の状態に対する不確実性を保護するための悲観的ポリシーを導出する,新しいロバストなRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-06T20:52:49Z) - Reward Poisoning Attack Against Offline Reinforcement Learning [5.057241745123681]
機能近似のためのディープニューラルネットワークを用いた一般オフライン強化学習に対する報酬中毒攻撃の問題点について検討する。
我々の知る限り、一般のオフラインRL設定における最初のブラックボックス報酬中毒攻撃を提案する。
論文 参考訳(メタデータ) (2024-02-15T04:08:49Z) - Implicit Poisoning Attacks in Two-Agent Reinforcement Learning:
Adversarial Policies for Training-Time Attacks [21.97069271045167]
標的毒攻撃では、攻撃者はエージェントと環境の相互作用を操作して、ターゲットポリシーと呼ばれる利害政策を採用するように強制する。
本研究では,攻撃者がエージェントの有効環境を暗黙的に毒殺する2エージェント環境での標的毒殺攻撃について,仲間の方針を変更して検討した。
最適な攻撃を設計するための最適化フレームワークを開発し、攻撃のコストは、ピアエージェントが想定するデフォルトポリシーからどの程度逸脱するかを測定する。
論文 参考訳(メタデータ) (2023-02-27T14:52:15Z) - Decentralized Optimistic Hyperpolicy Mirror Descent: Provably No-Regret
Learning in Markov Games [95.10091348976779]
我々はマルコフゲームにおいて、非定常的でおそらく敵対的な相手と遊べる単一のエージェントを制御する分散ポリシー学習について研究する。
我々は、新しいアルゴリズム、アンダーラインデ集中型アンダーラインハイプラインRpolicy munderlineIrror deunderlineScent (DORIS)を提案する。
DORISは、一般的な関数近似の文脈で$sqrtK$-regretを達成する。
論文 参考訳(メタデータ) (2022-06-03T14:18:05Z) - Attacking and Defending Deep Reinforcement Learning Policies [3.6985039575807246]
本研究では, DRL ポリシーのロバストな最適化の観点から, 敵攻撃に対するロバスト性について検討する。
本稿では,環境との相互作用を伴わずにポリシーの戻りを最小化しようとする欲求攻撃アルゴリズムと,最大限の形式で敵の訓練を行う防衛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-16T12:47:54Z) - Practical Evaluation of Adversarial Robustness via Adaptive Auto Attack [96.50202709922698]
実用的な評価手法は、便利な(パラメータフリー)、効率的な(イテレーションの少ない)、信頼性を持つべきである。
本稿では,パラメータフリーな適応オートアタック (A$3$) 評価手法を提案する。
論文 参考訳(メタデータ) (2022-03-10T04:53:54Z) - School of hard knocks: Curriculum analysis for Pommerman with a fixed
computational budget [4.726777092009554]
Pommermanはハイブリッドな協調/逆のマルチエージェント環境です。
これは強化学習アプローチにとって難しい環境である。
制約付き計算予算10万ゲームにおいて、堅牢で有望なポリシーを学習するためのカリキュラムを開発する。
論文 参考訳(メタデータ) (2021-02-23T15:43:09Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。