論文の概要: Adversarial Inception for Bounded Backdoor Poisoning in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2410.13995v1
- Date: Thu, 17 Oct 2024 19:50:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:25:28.734108
- Title: Adversarial Inception for Bounded Backdoor Poisoning in Deep Reinforcement Learning
- Title(参考訳): 深層強化学習におけるバウンドバックドアポジショニングの適応的開始
- Authors: Ethan Rathbun, Christopher Amato, Alina Oprea,
- Abstract要約: 本稿では,Deep Reinforcement Learning (DRL)アルゴリズムに対する新たなバックドア攻撃法を提案する。
これらの攻撃は、エージェントの報酬を最小限に変更しながら、アートパフォーマンスの状態を達成します。
次に、拘束された報酬制約の下での事前攻撃を著しく上回るオンラインアタックを考案する。
- 参考スコア(独自算出の注目度): 16.350898218047405
- License:
- Abstract: Recent works have demonstrated the vulnerability of Deep Reinforcement Learning (DRL) algorithms against training-time, backdoor poisoning attacks. These attacks induce pre-determined, adversarial behavior in the agent upon observing a fixed trigger during deployment while allowing the agent to solve its intended task during training. Prior attacks rely on arbitrarily large perturbations to the agent's rewards to achieve both of these objectives - leaving them open to detection. Thus, in this work, we propose a new class of backdoor attacks against DRL which achieve state of the art performance while minimally altering the agent's rewards. These ``inception'' attacks train the agent to associate the targeted adversarial behavior with high returns by inducing a disjunction between the agent's chosen action and the true action executed in the environment during training. We formally define these attacks and prove they can achieve both adversarial objectives. We then devise an online inception attack which significantly out-performs prior attacks under bounded reward constraints.
- Abstract(参考訳): 最近の研究は、訓練時間、バックドア中毒に対するDeep Reinforcement Learning (DRL)アルゴリズムの脆弱性を実証している。
これらの攻撃は、配備中に一定のトリガーを観察し、エージェントが訓練中に意図したタスクを解決できるように、エージェントの事前決定された敵の振る舞いを誘導する。
以前の攻撃では、エージェントの2つの目的を達成するために、エージェントの報酬に対して任意に大きな摂動に依存していた。
そこで本研究では,エージェントの報酬を最小限に変化させつつ,最先端性能を実現するDRLに対する新たなバックドア攻撃手法を提案する。
これらの `inception'' 攻撃は、エージェントが選択したアクションとトレーニング中に環境内で実行される真のアクションとの解離を誘導することにより、ターゲットの敵行動と高いリターンを関連付けるようにエージェントを訓練する。
我々はこれらの攻撃を正式に定義し、双方の敵の目的を達成できることを証明する。
次に,オンラインインセプション攻撃を考案し,有界報酬制約下での事前攻撃を著しく上回った。
関連論文リスト
- CuDA2: An approach for Incorporating Traitor Agents into Cooperative Multi-Agent Systems [13.776447110639193]
CMARLシステムに反抗剤を注入する新しい手法を提案する。
TMDPでは、裏切り者は被害者エージェントと同じMARLアルゴリズムを用いて訓練され、その報酬機能は被害者エージェントの報酬の負として設定される。
CuDA2は、特定の被害者エージェントのポリシーに対する攻撃の効率性と攻撃性を高める。
論文 参考訳(メタデータ) (2024-06-25T09:59:31Z) - SleeperNets: Universal Backdoor Poisoning Attacks Against Reinforcement Learning Agents [16.350898218047405]
強化学習(Reinforcement Learning, RL)は、現実世界の安全クリティカルなアプリケーションでの利用が増加している分野である。
この研究では、特にステルス性のRL(バックドア中毒)に対するトレーニングタイムアタックを調査します。
我々は、敵の目的と最適な政策を見出す目的を結びつける新しい毒殺の枠組みを定式化する。
論文 参考訳(メタデータ) (2024-05-30T23:31:25Z) - SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - On the Difficulty of Defending Contrastive Learning against Backdoor
Attacks [58.824074124014224]
バックドア攻撃が、特有のメカニズムによってどのように動作するかを示す。
本研究は, 対照的なバックドア攻撃の特異性に合わせて, 防御の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2023-12-14T15:54:52Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。
一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。
本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2022-02-22T02:24:46Z) - Backdoors Stuck At The Frontdoor: Multi-Agent Backdoor Attacks That
Backfire [8.782809316491948]
複数の攻撃者が同時に被害者モデルをバックドアしようとするマルチエージェントバックドア攻撃シナリオについて検討する。
エージェントが集団攻撃の成功率の低いゲームで一貫したバックファイリング現象が観察される。
その結果,実践環境におけるバックドア・ディフェンス研究の再評価の動機となった。
論文 参考訳(メタデータ) (2022-01-28T16:11:40Z) - Widen The Backdoor To Let More Attackers In [24.540853975732922]
マルチエージェントバックドア攻撃のシナリオについて検討し、複数の非衝突攻撃者が共有データセットにトリガサンプルを挿入する。
攻撃者数の増加は攻撃者の攻撃成功率を減少させる。
そして、この現象を利用して攻撃者の集合的ASRを最小化し、防御者の堅牢性を最大化する。
論文 参考訳(メタデータ) (2021-10-09T13:53:57Z) - Understanding Adversarial Attacks on Observations in Deep Reinforcement
Learning [32.12283927682007]
深層強化学習モデルは、観測を操作することで被害者の総報酬を減少させる敵攻撃に対して脆弱である。
関数空間における逆攻撃の問題を修正し、以前の勾配に基づく攻撃をいくつかの部分空間に分割する。
第一段階では、環境をハックして偽装ポリシーを訓練し、最下位の報酬にルーティングするトラジェクトリのセットを発見する。
本手法は,攻撃エージェントの性能に対して,既存の手法よりも厳密な理論上界を提供する。
論文 参考訳(メタデータ) (2021-06-30T07:41:51Z) - Guided Adversarial Attack for Evaluating and Enhancing Adversarial
Defenses [59.58128343334556]
我々は、より適切な勾配方向を見つけ、攻撃効果を高め、より効率的な対人訓練をもたらす標準損失に緩和項を導入する。
本稿では, クリーン画像の関数マッピングを用いて, 敵生成を誘導するGAMA ( Guided Adversarial Margin Attack) を提案する。
また,一段防衛における最先端性能を実現するためのGAT ( Guided Adversarial Training) を提案する。
論文 参考訳(メタデータ) (2020-11-30T16:39:39Z) - Deflecting Adversarial Attacks [94.85315681223702]
我々は、攻撃者が攻撃対象クラスに似た入力を生成することによって、敵攻撃を「防御」するこのサイクルを終わらせる新しいアプローチを提案する。
本稿ではまず,3つの検出機構を組み合わせたカプセルネットワークに基づくより強力な防御手法を提案する。
論文 参考訳(メタデータ) (2020-02-18T06:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。