論文の概要: Adaptive Reward-Poisoning Attacks against Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2003.12613v2
- Date: Mon, 22 Jun 2020 21:02:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 04:17:57.003358
- Title: Adaptive Reward-Poisoning Attacks against Reinforcement Learning
- Title(参考訳): 強化学習に対する適応的逆襲攻撃
- Authors: Xuezhou Zhang, Yuzhe Ma, Adish Singla, Xiaojin Zhu
- Abstract要約: 強化学習に対する報奨攻撃では、攻撃者は各ステップで環境報酬$r_t$を$r_t+delta_t$に摂動することができる。
穏やかな条件下では、アダプティブアタックは状態空間サイズ$|S|$のステップで悪質なポリシーを達成できることを示す。
また,攻撃者は最先端の深層RL技術を用いて効果的な報酬中毒攻撃を発見できることを示す。
- 参考スコア(独自算出の注目度): 43.07944714475278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In reward-poisoning attacks against reinforcement learning (RL), an attacker
can perturb the environment reward $r_t$ into $r_t+\delta_t$ at each step, with
the goal of forcing the RL agent to learn a nefarious policy. We categorize
such attacks by the infinity-norm constraint on $\delta_t$: We provide a lower
threshold below which reward-poisoning attack is infeasible and RL is certified
to be safe; we provide a corresponding upper threshold above which the attack
is feasible. Feasible attacks can be further categorized as non-adaptive where
$\delta_t$ depends only on $(s_t,a_t, s_{t+1})$, or adaptive where $\delta_t$
depends further on the RL agent's learning process at time $t$. Non-adaptive
attacks have been the focus of prior works. However, we show that under mild
conditions, adaptive attacks can achieve the nefarious policy in steps
polynomial in state-space size $|S|$, whereas non-adaptive attacks require
exponential steps. We provide a constructive proof that a Fast Adaptive Attack
strategy achieves the polynomial rate. Finally, we show that empirically an
attacker can find effective reward-poisoning attacks using state-of-the-art
deep RL techniques.
- Abstract(参考訳): 強化学習(RL)に対する報奨攻撃では、攻撃者は各ステップで$r_t$を$r_t+\delta_t$に摂動し、RLエージェントに悪質なポリシーを学ぶことを強制する。
我々は、$\delta_t$の無限ノルム制約による攻撃を分類する: 報酬中毒攻撃が実現不可能で、RLが安全であると認定された下位しきい値を提供し、攻撃が実現可能な対応する上位しきい値を提供する。
実行可能な攻撃は、$\delta_t$が$(s_t,a_t, s_{t+1})$のみに依存する非適応的、あるいは適応的、または $\delta_t$がRLエージェントの学習プロセスに時間$t$に依存する、非適応的に分類される。
非適応攻撃は、以前の仕事の焦点だった。
しかし, 穏やかな条件下では, 適応的攻撃は, 状態空間サイズ$|s|$ のステップ多項式において不利な方針を実現できるが, 非適応的攻撃は指数的ステップを必要とする。
我々は,高速な適応攻撃戦略が多項式レートを達成することの証明を提供する。
最後に、経験的に攻撃者が最先端のディープrl技術を用いて効果的な報酬ポジショニング攻撃を見つけることができることを示す。
関連論文リスト
- Fast Proxies for LLM Robustness Evaluation [48.53873823665833]
我々は,LLMの現実的ロバスト性を予測するための高速プロキシメトリクスと,シミュレーションされたアタッカーアンサンブルとの比較を行った。
これにより、攻撃自体の実行を必要とせずに、計算コストの高い攻撃に対するモデルの堅牢性を見積もることができる。
論文 参考訳(メタデータ) (2025-02-14T11:15:27Z) - Optimal Attack and Defense for Reinforcement Learning [11.36770403327493]
敵RLでは、外部攻撃者は、環境との相互作用を操作できる。
我々は、攻撃者が予想される報酬を最大化するステルス攻撃を設計する際の問題を示す。
被害者に対する最適な防衛方針は,Stackelbergゲームに対する解決策として計算できる,と我々は主張する。
論文 参考訳(メタデータ) (2023-11-30T21:21:47Z) - Guidance Through Surrogate: Towards a Generic Diagnostic Attack [101.36906370355435]
我々は、攻撃最適化中に局所最小限を避けるための誘導機構を開発し、G-PGAと呼ばれる新たな攻撃に繋がる。
修正された攻撃では、ランダムに再起動したり、多数の攻撃を繰り返したり、最適なステップサイズを検索したりする必要がありません。
効果的な攻撃以上に、G-PGAは敵防御における勾配マスキングによる解離性堅牢性を明らかにするための診断ツールとして用いられる。
論文 参考訳(メタデータ) (2022-12-30T18:45:23Z) - Understanding the Limits of Poisoning Attacks in Episodic Reinforcement
Learning [36.30086280732181]
本稿では,<sup>RL</sup>における目標政策に向けて,幻想的順序最適学習アルゴリズムを操作するための毒攻撃について検討する。
攻撃の効果は、報酬が束縛されているか、無束縛されているかによって大きく左右される。
論文 参考訳(メタデータ) (2022-08-29T15:10:14Z) - Sampling Attacks on Meta Reinforcement Learning: A Minimax Formulation
and Complexity Analysis [20.11993437283895]
本稿では,この種のセキュリティリスクを理解するためのゲーム理論的基盤を提供する。
我々は、サンプリング攻撃モデルを、攻撃者とエージェントの間のスタックルバーグゲームとして定義し、最小限の定式化をもたらす。
我々は,攻撃者の小さな努力が学習性能を著しく低下させる可能性があることを観察した。
論文 参考訳(メタデータ) (2022-07-29T21:29:29Z) - Provably Efficient Black-Box Action Poisoning Attacks Against
Reinforcement Learning [41.1063033715314]
我々は,エージェントが選択したアクションシグナルを敵が変更できる行動中毒攻撃という新しい種類の攻撃を導入する。
既存の攻撃モデルと比較して、提案した行動中毒攻撃モデルにおける攻撃者の能力はより制限されている。
ブラックボックス設定においても,提案手法は攻撃者が選択したポリシーに従って,UCB-Hエージェントが行動を選択することを強制することができることを示す。
論文 参考訳(メタデータ) (2021-10-09T06:41:34Z) - PDPGD: Primal-Dual Proximal Gradient Descent Adversarial Attack [92.94132883915876]
最先端のディープニューラルネットワークは、小さな入力摂動に敏感である。
対向騒音に対するロバスト性を改善するための多くの防御法が提案されている。
敵の強靭さを評価することは 極めて困難であることが分かりました
論文 参考訳(メタデータ) (2021-06-03T01:45:48Z) - Composite Adversarial Attacks [57.293211764569996]
敵対攻撃は、機械学習(ML)モデルを欺くための技術です。
本論文では,攻撃アルゴリズムの最適組み合わせを自動的に探索するための複合攻撃法(Composite Adrial Attack,CAA)を提案する。
CAAは11の防衛でトップ10の攻撃を破り、時間の経過は少ない。
論文 参考訳(メタデータ) (2020-12-10T03:21:16Z) - RayS: A Ray Searching Method for Hard-label Adversarial Attack [99.72117609513589]
我々は、レイサーチ攻撃(RayS)を提案し、これはハードラベル攻撃の有効性と効率を大幅に改善する。
モデルの正当性チェックとしても使用できる。
論文 参考訳(メタデータ) (2020-06-23T07:01:50Z) - Policy Teaching via Environment Poisoning: Training-time Adversarial
Attacks against Reinforcement Learning [33.41280432984183]
本研究では,攻撃者が学習環境を害してエージェントに目標ポリシーの実行を強制する強化学習に対するセキュリティ上の脅威について検討する。
被害者として、未報告の無限水平問題設定における平均報酬を最大化するポリシーを見つけることを目的としたRLエージェントを考える。
論文 参考訳(メタデータ) (2020-03-28T23:22:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。