論文の概要: BehaviorGuard: Online Backdoor Defense for Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.05977v1
- Date: Thu, 07 May 2026 10:21:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.696298
- Title: BehaviorGuard: Online Backdoor Defense for Deep Reinforcement Learning
- Title(参考訳): BehaviorGuard: 深層強化学習のためのオンラインバックドアディフェンス
- Authors: Yinbo Yu, Xueyu Yin, Jiadai Wang, Chunwei Tian, Sai Xu, Qi Zhu, Daoqiang Zhang,
- Abstract要約: バックドア攻撃は深層強化学習(DRL)に深刻な脅威をもたらす
現在の防衛は、バックドアを除去するためのリバースエンジントリガーやファインタニングのモデルへの報酬異常に依存している。
本稿では,DRLのための行動に基づくバックドア検出・緩和フレームワークであるBehavimentGuardを提案する。
- 参考スコア(独自算出の注目度): 32.53874142863277
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Backdoor attacks pose a serious threat to deep reinforcement learning (DRL). Current defenses typically rely on reward anomalies to reverse-engineer triggers and model finetuning to remove backdoors. However, complex trigger patterns undermine their robustness, and fine-tuning entails high costs, limiting practical utility. Therefore, we shift defense concerns to trigger-agnostic backdoor output behaviors and propose BehaviorGuard, an online behavior-based backdoor detection and mitigation framework for DRL. Specifically, we find that regardless of attacks, backdoored policies induce consistent shifts in action distributions to ensure reliable activation, leaving detectable traces in high-quantile regions and distribution tails, even in the absence of triggers. Based on this, we design a novel metric that captures behavioral drift in action distributions to identify and suppress backdoor actions at runtime. To our knowledge, this is the first online backdoor defense that counters attacks both in single- and multi-agent DRL. Evaluated across diverse benchmarks with different backdoor attacks, BehaviorGuard consistently surpasses prior methods in both efficacy and efficiency.
- Abstract(参考訳): バックドア攻撃は深層強化学習(DRL)に深刻な脅威をもたらす。
現在の防衛は、通常、バックドアを取り除くためにリバースエンジントリガーやファインタニングをモデル化する報酬異常に依存している。
しかし、複雑なトリガーパターンは、その堅牢性を損なうものであり、微調整はコストを高くし、実用性を制限する。
そこで我々は、防衛上の懸念をトリガー非依存のバックドア出力行動にシフトさせ、DRLのためのオンライン行動に基づくバックドア検出・緩和フレームワークであるBehaviorGuardを提案する。
具体的には、攻撃によらず、バックドアポリシーは、トリガーがなくても、高い周波数領域や分布尾に検出可能な痕跡を残し、信頼性の高い活性化を保証するために、アクション分布の一貫性のあるシフトを誘導する。
これに基づいて,動作分布の挙動ドリフトを捕捉し,実行時のバックドア動作を識別・抑制する新しい指標を設計する。
私たちの知る限り、これはシングルエージェントとマルチエージェントのDRLの両方で攻撃に対処する、初めてのオンラインバックドアディフェンスです。
バックドア攻撃の異なるさまざまなベンチマークで評価され、BehaviorGuardは、有効性と効率の両方において、従来手法を一貫して上回っている。
関連論文リスト
- Uncovering and Aligning Anomalous Attention Heads to Defend Against NLP Backdoor Attacks [9.078969469946038]
バックドア攻撃は、大規模な言語モデルのセキュリティに深刻な脅威をもたらす。
本稿では,注目の類似性に基づくバックドア検出手法を提案する。
我々の手法はバックドア攻撃の成功率を大幅に低下させる。
論文 参考訳(メタデータ) (2025-11-16T15:26:50Z) - UNIDOOR: A Universal Framework for Action-Level Backdoor Attacks in Deep Reinforcement Learning [29.276629583642002]
アクションレベルのバックドアは、正確な操作と柔軟なアクティベーションを通じて重大な脅威を引き起こす。
本稿では、UNIDOORと呼ばれる、最初のユニバーサルアクションレベルのバックドアアタックフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-26T13:43:39Z) - BLAST: A Stealthy Backdoor Leverage Attack against Cooperative Multi-Agent Deep Reinforcement Learning based Systems [14.936720751131434]
協調型多エージェント深層強化学習(c-MADRL)は、バックドア攻撃の脅威にさらされている。
我々は,c-MADRLに対して,単一のエージェントに唯一のバックドアを埋め込むことで,マルチエージェントチーム全体を攻撃する新しいバックドアレバレッジアタックを提案する。
論文 参考訳(メタデータ) (2025-01-03T01:33:29Z) - Unlearn to Relearn Backdoors: Deferred Backdoor Functionality Attacks on Deep Learning Models [6.937795040660591]
バックドア攻撃の新たなパラダイムとして,Deferred Activated Backdoor Functionality (DABF)を紹介した。
従来の攻撃とは異なり、DABFは当初バックドアを隠蔽し、起動しても良質な出力を生成する。
DABF攻撃は、マシンラーニングモデルのライフサイクルで一般的なプラクティスを利用して、モデル更新と初期デプロイ後の微調整を実行する。
論文 参考訳(メタデータ) (2024-11-10T07:01:53Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - A Spatiotemporal Stealthy Backdoor Attack against Cooperative Multi-Agent Deep Reinforcement Learning [12.535344011523897]
協調型多エージェント深層強化学習(c-MADRL)は、バックドア攻撃の脅威にさらされている。
我々は,c-MADRLに対する新たなバックドア攻撃を提案し,単一のエージェントにのみバックドアを埋め込むことで,マルチエージェントチーム全体を攻撃する。
私たちのバックドア攻撃は高い攻撃成功率(91.6%)を達成でき、クリーンパフォーマンスのばらつきは低い(3.7%)。
論文 参考訳(メタデータ) (2024-09-12T06:17:37Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。
本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。
PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T07:52:26Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。