論文の概要: Provable Defense against Backdoor Policies in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2211.10530v1
- Date: Fri, 18 Nov 2022 23:12:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 18:09:59.446839
- Title: Provable Defense against Backdoor Policies in Reinforcement Learning
- Title(参考訳): 強化学習におけるバックドア政策の防止
- Authors: Shubham Kumar Bharti, Xuezhou Zhang, Adish Singla, Xiaojin Zhu
- Abstract要約: バックドアポリシー(英語: backdoor policy)とは、敵が隠されたトリガーを許可する、一見好意的なポリシーを公表するセキュリティの脅威である。
サブスペーストリガ仮定下での強化学習におけるバックドアポリシーに対する実証可能な防御機構を提案する。
- 参考スコア(独自算出の注目度): 35.908468039596734
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose a provable defense mechanism against backdoor policies in
reinforcement learning under subspace trigger assumption. A backdoor policy is
a security threat where an adversary publishes a seemingly well-behaved policy
which in fact allows hidden triggers. During deployment, the adversary can
modify observed states in a particular way to trigger unexpected actions and
harm the agent. We assume the agent does not have the resources to re-train a
good policy. Instead, our defense mechanism sanitizes the backdoor policy by
projecting observed states to a 'safe subspace', estimated from a small number
of interactions with a clean (non-triggered) environment. Our sanitized policy
achieves $\epsilon$ approximate optimality in the presence of triggers,
provided the number of clean interactions is $O\left(\frac{D}{(1-\gamma)^4
\epsilon^2}\right)$ where $\gamma$ is the discounting factor and $D$ is the
dimension of state space. Empirically, we show that our sanitization defense
performs well on two Atari game environments.
- Abstract(参考訳): サブスペーストリガ仮定下で強化学習におけるバックドアポリシーに対する証明可能な防御機構を提案する。
バックドアポリシー(英: backdoor policy)は、敵が、実際に隠れたトリガーを許可する一見よくできたポリシーを公開するセキュリティの脅威である。
デプロイ中、敵は観察した状態を特定の方法で修正し、予期しないアクションを起動し、エージェントを傷つけることができる。
エージェントが適切なポリシーを再トレーニングするリソースを持っていないと仮定します。
その代わり、我々の防御機構は、クリーン(非トリガー)環境との少数の相互作用から推定される、観察された状態を'安全な部分空間'に投影することでバックドアポリシーを正当化する。
我々の衛生政策はトリガーの存在下で近似最適度$\epsilon$を達成し、クリーンな相互作用の数が$O\left(\frac{D}{(1-\gamma)^4 \epsilon^2}\right)$であるなら、$\gamma$は割引係数であり、$D$は状態空間の次元である。
実験により, 2つのAtariゲーム環境において, 衛生対策が良好であることを示す。
関連論文リスト
- Breaking the False Sense of Security in Backdoor Defense through Re-Activation Attack [32.74007523929888]
防衛後のバックドアモデルの特徴を再検討する。
既存の訓練後防衛戦略から派生した防衛モデルには,元のバックドアが現存していることが判明した。
我々は,これらの休眠バックドアを推論中に簡単に再活性化できることを実証的に示す。
論文 参考訳(メタデータ) (2024-05-25T08:57:30Z) - Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。
本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。
PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T07:52:26Z) - Cooperative Backdoor Attack in Decentralized Reinforcement Learning with Theoretical Guarantee [21.596629203866925]
分散強化学習シナリオにおける協調的バックドア攻撃について検討する。
提案手法は, バックドアの挙動をRLの状態空間に応じて複数のコンポーネントに分解する。
我々の知る限りでは、分散強化学習における実証可能な協調的バックドア攻撃を示す最初の論文である。
論文 参考訳(メタデータ) (2024-05-24T06:13:31Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Rethinking Adversarial Policies: A Generalized Attack Formulation and
Provable Defense in RL [46.32591437241358]
本稿では、訓練された被害者エージェントが他のエージェントを制御する攻撃者によって悪用されるマルチエージェント設定について考察する。
以前のモデルでは、攻撃者が$alpha$に対する部分的な制御しか持たない可能性や、攻撃が容易に検出可能な"異常"な振る舞いを生じさせる可能性を考慮していない。
我々は、敵がエージェントをどの程度制御できるかをモデル化する柔軟性を持つ汎用攻撃フレームワークを導入する。
我々は、時間的分離を伴う敵の訓練を通じて、最も堅牢な被害者政策への収束を証明可能な効率のよい防御を提供する。
論文 参考訳(メタデータ) (2023-05-27T02:54:07Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Recover Triggered States: Protect Model Against Backdoor Attack in
Reinforcement Learning [23.94769537680776]
バックドア攻撃は、悪意のあるユーザーが環境を操作したり、トレーニングデータを破損させたりすることで、トレーニングされたエージェントにバックドアを挿入することができる。
本稿では,バックドア攻撃から被害者エージェントを効果的に保護する新しい手法であるリカバリトリガードステイト(RTS)手法を提案する。
論文 参考訳(メタデータ) (2023-04-01T08:00:32Z) - Decentralized Optimistic Hyperpolicy Mirror Descent: Provably No-Regret
Learning in Markov Games [95.10091348976779]
我々はマルコフゲームにおいて、非定常的でおそらく敵対的な相手と遊べる単一のエージェントを制御する分散ポリシー学習について研究する。
我々は、新しいアルゴリズム、アンダーラインデ集中型アンダーラインハイプラインRpolicy munderlineIrror deunderlineScent (DORIS)を提案する。
DORISは、一般的な関数近似の文脈で$sqrtK$-regretを達成する。
論文 参考訳(メタデータ) (2022-06-03T14:18:05Z) - Defense Against Reward Poisoning Attacks in Reinforcement Learning [29.431349181232203]
我々は、強化学習における報酬中毒に対する防衛戦略について研究する。
最適な防衛方針を導出するための最適化フレームワークを提案する。
提案した最適化問題に対する解決策である防衛方針が,性能保証を証明可能であることを示す。
論文 参考訳(メタデータ) (2021-02-10T23:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。