論文の概要: Plan2Cleanse: Test-Time Backdoor Defense via Monte-Carlo Planning in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.09638v1
- Date: Sun, 10 May 2026 16:34:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.345936
- Title: Plan2Cleanse: Test-Time Backdoor Defense via Monte-Carlo Planning in Deep Reinforcement Learning
- Title(参考訳): Plan2Cleanse: 深層強化学習におけるモンテカルロ計画によるテスト時間バックドアディフェンス
- Authors: Sze-Ann Chen, Zhi-Yi Chin, Kui-Yuan Chen, Chi-Yu Li, Ping-Chun Hsieh,
- Abstract要約: Plan2Cleanseはテスト時の検出と緩和のためのフレームワークだ。
モンテカルロ木探索に適応し、RLバックドア攻撃を効果的に識別し、中和する。
Plan2Cleanseは、トリガー検出成功率を大幅に改善する。
- 参考スコア(独自算出の注目度): 12.26506262764069
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring the security of reinforcement learning (RL) models is critical, particularly when they are trained by third parties and deployed in real-world systems. Attackers can implant backdoors into these models, causing them to behave normally under typical conditions, but execute malicious behaviors when specific triggers are activated. In this work, we propose Plan2Cleanse, a test-time detection and mitigation framework that adapts Monte Carlo Tree Search to efficiently identify and neutralize RL backdoor attacks without requiring model retraining. Our approach recasts backdoor detection as a planning problem, enabling systematic exploration of temporally extended trigger sequences while maintaining black-box access to the target policy. By leveraging the detection results, Plan2Cleanse can further achieve efficient mitigation through tree-search preventive replanning. We evaluated our method in competitive MuJoCo environments, simulated O-RAN wireless networks, and Atari games. Plan2Cleanse achieves substantial improvements, increasing trigger detection success rates by more than 61.4 percentage points in stealthy O-RAN scenarios and improving win rates from 35\% to 53\% in competitive Humanoid environments. These results demonstrate the effectiveness of our test-time defense approach and highlight the importance of proactive defenses against backdoor threats in RL deployments. Our implementation is publicly available at https://github.com/rl-bandits-lab/RL-Backdoor.
- Abstract(参考訳): 強化学習(RL)モデルの安全性の確保は、特に第三者によって訓練され、現実世界のシステムに配備される場合、重要である。
攻撃者はこれらのモデルにバックドアを埋め込むことができ、通常の条件下では正常に動作させるが、特定のトリガーがアクティベートされると悪意のある動作を実行する。
本研究では,モンテカルロ木探索をモデル再訓練を必要とせずに効率的にRLバックドア攻撃を識別・中和するテスト時間検出・緩和フレームワークであるPlan2Cleanseを提案する。
提案手法はバックドア検出を計画上の問題として再キャストし,対象ポリシーへのブラックボックスアクセスを維持しつつ,時間的に拡張されたトリガシーケンスの体系的な探索を可能にする。
検出結果を活用することにより、Plan2Cleanseは、ツリー探索防止計画による効率的な緩和を実現することができる。
提案手法を競合する MuJoCo 環境,O-RAN 無線ネットワーク,Atari ゲームで評価した。
Plan2Cleanseは大幅に改善され、ステルスなO-RANシナリオでは61.4ポイント以上のトリガー検出成功率の増加と、競合するヒューマノイド環境では35\%から53\%の勝利率向上を実現している。
これらの結果から,テストタイム・ディフェンス・アプローチの有効性が示され,RL導入におけるバックドア・脅威に対するプロアクティブ・ディフェンスの重要性が強調された。
私たちの実装はhttps://github.com/rl-bandits-lab/RL-Backdoor.comで公開されています。
関連論文リスト
- BehaviorGuard: Online Backdoor Defense for Deep Reinforcement Learning [32.53874142863277]
バックドア攻撃は深層強化学習(DRL)に深刻な脅威をもたらす
現在の防衛は、バックドアを除去するためのリバースエンジントリガーやファインタニングのモデルへの報酬異常に依存している。
本稿では,DRLのための行動に基づくバックドア検出・緩和フレームワークであるBehavimentGuardを提案する。
論文 参考訳(メタデータ) (2026-05-07T10:21:14Z) - TooBadRL: Trigger Optimization to Boost Effectiveness of Backdoor Attacks on Deep Reinforcement Learning [38.79063331759597]
TooBadRLは、DRLバックドアトリガーを3つの臨界軸(時間、空間、大きさ)に沿って体系的に最適化するフレームワークである。
TooBadRLは,通常のタスク性能の低下を最小限に抑えつつ,攻撃成功率を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-06-11T09:50:17Z) - Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in CLIP [51.04452017089568]
CBPT(Class-wise Backdoor Prompt Tuning)は、テキストプロンプトでCLIPを間接的に浄化する効率的な防御機構である。
CBPTは、モデルユーティリティを保持しながら、バックドアの脅威を著しく軽減する。
論文 参考訳(メタデータ) (2025-02-26T16:25:15Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - SleeperNets: Universal Backdoor Poisoning Attacks Against Reinforcement Learning Agents [16.350898218047405]
強化学習(Reinforcement Learning, RL)は、現実世界の安全クリティカルなアプリケーションでの利用が増加している分野である。
この研究では、特にステルス性のRL(バックドア中毒)に対するトレーニングタイムアタックを調査します。
我々は、敵の目的と最適な政策を見出す目的を結びつける新しい毒殺の枠組みを定式化する。
論文 参考訳(メタデータ) (2024-05-30T23:31:25Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。