論文の概要: Beyond Training-time Poisoning: Component-level and Post-training Backdoors in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.04883v1
- Date: Mon, 07 Jul 2025 11:15:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.393724
- Title: Beyond Training-time Poisoning: Component-level and Post-training Backdoors in Deep Reinforcement Learning
- Title(参考訳): 深層強化学習におけるコンポーネントレベルとポストトレーニングバックドア
- Authors: Sanyam Vyas, Alberto Caron, Chris Hicks, Pete Burnap, Vasilios Mavroudis,
- Abstract要約: 深層強化学習(Dep Reinforcement Learning, DRL)システムは、安全クリティカルなアプリケーションでますます使われているが、そのセキュリティはいまだに過小評価されている。
本研究は、特定の入力が観測空間に現れる場合にのみ悪意ある行為を引き起こす隠されたトリガーを埋め込むバックドア攻撃を調査する。
1) 完全モデル再訓練に耐える持続的バックドアを移植するためにコンポーネントレベルの欠陥を利用するTrojanentRLと,(2) トレーニングや検証,テストデータへのアクセスを必要としないトレーニング後のバックドア攻撃であるInfrectroRLである。
- 参考スコア(独自算出の注目度): 2.8311497176067104
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Reinforcement Learning (DRL) systems are increasingly used in safety-critical applications, yet their security remains severely underexplored. This work investigates backdoor attacks, which implant hidden triggers that cause malicious actions only when specific inputs appear in the observation space. Existing DRL backdoor research focuses solely on training-time attacks requiring unrealistic access to the training pipeline. In contrast, we reveal critical vulnerabilities across the DRL supply chain where backdoors can be embedded with significantly reduced adversarial privileges. We introduce two novel attacks: (1) TrojanentRL, which exploits component-level flaws to implant a persistent backdoor that survives full model retraining; and (2) InfrectroRL, a post-training backdoor attack which requires no access to training, validation, nor test data. Empirical and analytical evaluations across six Atari environments show our attacks rival state-of-the-art training-time backdoor attacks while operating under much stricter adversarial constraints. We also demonstrate that InfrectroRL further evades two leading DRL backdoor defenses. These findings challenge the current research focus and highlight the urgent need for robust defenses.
- Abstract(参考訳): 深層強化学習(Dep Reinforcement Learning, DRL)システムは、安全クリティカルなアプリケーションでますます使われているが、そのセキュリティはいまだに過小評価されている。
本研究は、特定の入力が観測空間に現れる場合にのみ悪意ある行為を引き起こす隠されたトリガーを埋め込むバックドア攻撃を調査する。
既存のDRLバックドア研究は、訓練パイプラインへの非現実的なアクセスを必要とする訓練時間攻撃のみに焦点を当てている。
対照的に,バックドアを組み込むことができるDRLサプライチェーン全体の致命的な脆弱性を明らかにする。
1) 完全モデル再訓練に耐える持続的バックドアを移植するためにコンポーネントレベルの欠陥を利用するTrojanentRLと,(2) トレーニングや検証,テストデータへのアクセスを必要としないトレーニング後のバックドア攻撃であるInfrectroRLである。
6つのアタリ環境における実証的および分析的評価は、我々の攻撃が、より厳格な敵の制約の下で活動しながら、最先端の訓練時バックドア攻撃と競合することを示している。
InfrectroRLはさらに2つの主要なDRLバックドアディフェンスを回避することを実証した。
これらの知見は、現在の研究の焦点に挑戦し、堅牢な防衛の必要性を強調している。
関連論文リスト
- Unlearn to Relearn Backdoors: Deferred Backdoor Functionality Attacks on Deep Learning Models [6.937795040660591]
バックドア攻撃の新たなパラダイムとして,Deferred Activated Backdoor Functionality (DABF)を紹介した。
従来の攻撃とは異なり、DABFは当初バックドアを隠蔽し、起動しても良質な出力を生成する。
DABF攻撃は、マシンラーニングモデルのライフサイクルで一般的なプラクティスを利用して、モデル更新と初期デプロイ後の微調整を実行する。
論文 参考訳(メタデータ) (2024-11-10T07:01:53Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - SleeperNets: Universal Backdoor Poisoning Attacks Against Reinforcement Learning Agents [16.350898218047405]
強化学習(Reinforcement Learning, RL)は、現実世界の安全クリティカルなアプリケーションでの利用が増加している分野である。
この研究では、特にステルス性のRL(バックドア中毒)に対するトレーニングタイムアタックを調査します。
我々は、敵の目的と最適な政策を見出す目的を結びつける新しい毒殺の枠組みを定式化する。
論文 参考訳(メタデータ) (2024-05-30T23:31:25Z) - Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。
本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。
PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T07:52:26Z) - On the Difficulty of Defending Contrastive Learning against Backdoor
Attacks [58.824074124014224]
バックドア攻撃が、特有のメカニズムによってどのように動作するかを示す。
本研究は, 対照的なバックドア攻撃の特異性に合わせて, 防御の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2023-12-14T15:54:52Z) - Rethinking Backdoor Attacks [122.1008188058615]
バックドア攻撃では、悪意ある構築されたバックドアの例をトレーニングセットに挿入し、結果のモデルを操作に脆弱にする。
このような攻撃に対する防御は、典型的には、これらの挿入された例をトレーニングセットの外れ値として見ることと、堅牢な統計からのテクニックを使用してそれらを検出し、削除することである。
トレーニングデータ分布に関する構造情報がなければ,バックドア攻撃は自然に発生するデータの特徴と区別できないことを示す。
論文 参考訳(メタデータ) (2023-07-19T17:44:54Z) - Towards Understanding How Self-training Tolerates Data Backdoor
Poisoning [11.817302291033725]
バックドア攻撃を緩和するためのラベルのない追加データによる自己学習の可能性を探る。
新たな自己訓練体制は、バックドア攻撃に対する防衛に大いに役立ちます。
論文 参考訳(メタデータ) (2023-01-20T16:36:45Z) - BACKDOORL: Backdoor Attack against Competitive Reinforcement Learning [80.99426477001619]
バックドア攻撃を複数のエージェントを含むより複雑なRLシステムに移行する。
概念実証として、敵のエージェントが被害者エージェントのバックドアを独自のアクションでトリガーできることを実証します。
その結果, バックドアが作動すると, 有効でない場合と比較して, 被害者の勝利率は17%から37%に低下することがわかった。
論文 参考訳(メタデータ) (2021-05-02T23:47:55Z) - Backdoor Attacks and Countermeasures on Deep Learning: A Comprehensive
Review [40.36824357892676]
この研究は、コミュニティにバックドア攻撃のタイムリーなレビューとディープラーニング対策を提供する。
攻撃者の能力と機械学習パイプラインの影響を受けたステージにより、攻撃面は広く認識される。
対策は、ブラインド・バックドア・インスペクション、オフライン・バックドア・インスペクション、オンライン・バックドア・インスペクション、ポスト・バックドア・インスペクションの4つの一般的なクラスに分類される。
論文 参考訳(メタデータ) (2020-07-21T12:49:12Z) - Backdoor Learning: A Survey [75.59571756777342]
バックドア攻撃はディープニューラルネットワーク(DNN)に隠れたバックドアを埋め込む
バックドア学習は、急速に成長する研究分野である。
本稿では,この領域を包括的に調査する。
論文 参考訳(メタデータ) (2020-07-17T04:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。