論文の概要: Fox in the Henhouse: Supply-Chain Backdoor Attacks Against Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.19532v1
- Date: Mon, 26 May 2025 05:39:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.19111
- Title: Fox in the Henhouse: Supply-Chain Backdoor Attacks Against Reinforcement Learning
- Title(参考訳): Fox in the Henhouse: 強化学習に対するサプライチェーンバックドア攻撃
- Authors: Shijie Liu, Andrew C. Cullen, Paul Montague, Sarah Erfani, Benjamin I. P. Rubinstein,
- Abstract要約: 現在のRL(Reinforcement Learning)に対する最先端のバックドア攻撃は、非現実的な許容アクセスモデルに依存している。
本稿では,UnderlineSupply-underlineChunderlineain underlineBackdoor (SCAB)攻撃を提案する。
我々の攻撃は、90%以上のトリガーアクションを正常に活性化することができ、犠牲者に対する平均的なエピソードリターンを80%以上削減できる。
- 参考スコア(独自算出の注目度): 20.41701122824956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The current state-of-the-art backdoor attacks against Reinforcement Learning (RL) rely upon unrealistically permissive access models, that assume the attacker can read (or even write) the victim's policy parameters, observations, or rewards. In this work, we question whether such a strong assumption is required to launch backdoor attacks against RL. To answer this question, we propose the \underline{S}upply-\underline{C}h\underline{a}in \underline{B}ackdoor (SCAB) attack, which targets a common RL workflow: training agents using external agents that are provided separately or embedded within the environment. In contrast to prior works, our attack only relies on legitimate interactions of the RL agent with the supplied agents. Despite this limited access model, by poisoning a mere $3\%$ of training experiences, our attack can successfully activate over $90\%$ of triggered actions, reducing the average episodic return by $80\%$ for the victim. Our novel attack demonstrates that RL attacks are likely to become a reality under untrusted RL training supply-chains.
- Abstract(参考訳): 現在のRL(Reinforcement Learning)に対する最先端のバックドア攻撃は、攻撃者が被害者のポリシーパラメータ、観察、報酬を読む(あるいは書く)ことのできる非現実的なアクセスモデルに依存している。
本研究は,RLに対するバックドア攻撃にそのような強い仮定が必要であるかどうかを問うものである。
この疑問に答えるために、我々は、共通のRLワークフローをターゲットにした、環境内に個別に提供または埋め込まれた外部エージェントを使用したトレーニングエージェントである \underline{S}upply-\underline{C}h\underline{a}in \underline{B}ackdoor (SCAB) 攻撃を提案する。
以前の研究とは対照的に、我々の攻撃はRLエージェントと供給されたエージェントとの正当な相互作用にのみ依存する。
この制限されたアクセスモデルにもかかわらず、トレーニング経験のたった3\%の値に毒を塗布することで、我々の攻撃は90\%以上のトリガーアクションをアクティベートすることができ、犠牲者に対する平均的なエピソードリターンを80\%の値に下げることができます。
我々の新たな攻撃は、信頼できないRL訓練サプライチェーンの下でRL攻撃が現実になる可能性を示している。
関連論文リスト
- Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。
本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。
PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T07:52:26Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Recover Triggered States: Protect Model Against Backdoor Attack in
Reinforcement Learning [23.94769537680776]
バックドア攻撃は、悪意のあるユーザーが環境を操作したり、トレーニングデータを破損させたりすることで、トレーニングされたエージェントにバックドアを挿入することができる。
本稿では,バックドア攻撃から被害者エージェントを効果的に保護する新しい手法であるリカバリトリガードステイト(RTS)手法を提案する。
論文 参考訳(メタデータ) (2023-04-01T08:00:32Z) - BAFFLE: Hiding Backdoors in Offline Reinforcement Learning Datasets [31.122826345966065]
強化学習(Reinforcement Learning、RL)は、環境との相互作用中に収集された試行錯誤経験からエージェントに学習させる。
近年、オフラインRLは環境との相互作用を省くため、人気のあるRLパラダイムとなっている。
本稿では,データ(観測値)に摂動を加えるバックドアアタックに焦点を当てる。
オフラインのRLデータセットを汚染することにより、バックドアをRLエージェントに自動的に注入するアプローチであるBaffleを提案する。
論文 参考訳(メタデータ) (2022-10-07T07:56:17Z) - On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。
一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。
本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2022-02-22T02:24:46Z) - BACKDOORL: Backdoor Attack against Competitive Reinforcement Learning [80.99426477001619]
バックドア攻撃を複数のエージェントを含むより複雑なRLシステムに移行する。
概念実証として、敵のエージェントが被害者エージェントのバックドアを独自のアクションでトリガーできることを実証します。
その結果, バックドアが作動すると, 有効でない場合と比較して, 被害者の勝利率は17%から37%に低下することがわかった。
論文 参考訳(メタデータ) (2021-05-02T23:47:55Z) - Adaptive Reward-Poisoning Attacks against Reinforcement Learning [43.07944714475278]
強化学習に対する報奨攻撃では、攻撃者は各ステップで環境報酬$r_t$を$r_t+delta_t$に摂動することができる。
穏やかな条件下では、アダプティブアタックは状態空間サイズ$|S|$のステップで悪質なポリシーを達成できることを示す。
また,攻撃者は最先端の深層RL技術を用いて効果的な報酬中毒攻撃を発見できることを示す。
論文 参考訳(メタデータ) (2020-03-27T19:46:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。