論文の概要: UNIDOOR: A Universal Framework for Action-Level Backdoor Attacks in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2501.15529v1
- Date: Sun, 26 Jan 2025 13:43:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:59:47.499534
- Title: UNIDOOR: A Universal Framework for Action-Level Backdoor Attacks in Deep Reinforcement Learning
- Title(参考訳): UNIDOOR: 深層強化学習におけるアクションレベルバックドア攻撃のためのユニバーサルフレームワーク
- Authors: Oubo Ma, Linkang Du, Yang Dai, Chunyi Zhou, Qingming Li, Yuwen Pu, Shouling Ji,
- Abstract要約: アクションレベルのバックドアは、正確な操作と柔軟なアクティベーションを通じて重大な脅威を引き起こす。
本稿では、UNIDOORと呼ばれる、最初のユニバーサルアクションレベルのバックドアアタックフレームワークを提案する。
- 参考スコア(独自算出の注目度): 29.276629583642002
- License:
- Abstract: Deep reinforcement learning (DRL) is widely applied to safety-critical decision-making scenarios. However, DRL is vulnerable to backdoor attacks, especially action-level backdoors, which pose significant threats through precise manipulation and flexible activation, risking outcomes like vehicle collisions or drone crashes. The key distinction of action-level backdoors lies in the utilization of the backdoor reward function to associate triggers with target actions. Nevertheless, existing studies typically rely on backdoor reward functions with fixed values or conditional flipping, which lack universality across diverse DRL tasks and backdoor designs, resulting in fluctuations or even failure in practice. This paper proposes the first universal action-level backdoor attack framework, called UNIDOOR, which enables adaptive exploration of backdoor reward functions through performance monitoring, eliminating the reliance on expert knowledge and grid search. We highlight that action tampering serves as a crucial component of action-level backdoor attacks in continuous action scenarios, as it addresses attack failures caused by low-frequency target actions. Extensive evaluations demonstrate that UNIDOOR significantly enhances the attack performance of action-level backdoors, showcasing its universality across diverse attack scenarios, including single/multiple agents, single/multiple backdoors, discrete/continuous action spaces, and sparse/dense reward signals. Furthermore, visualization results encompassing state distribution, neuron activation, and animations demonstrate the stealthiness of UNIDOOR. The source code of UNIDOOR can be found at https://github.com/maoubo/UNIDOOR.
- Abstract(参考訳): 深層強化学習(DRL)は、安全クリティカルな意思決定シナリオに広く適用されている。
しかし、DRLはバックドア攻撃、特にアクションレベルのバックドアに対して脆弱であり、正確な操作と柔軟なアクティベーション、車両の衝突やドローンの墜落などによる重大な脅威を引き起こす。
アクションレベルのバックドアの主な区別は、ターゲットアクションとトリガーを関連付けるバックドア報酬関数の利用にある。
しかしながら、既存の研究は通常、固定値や条件付きフリップを持つバックドア報酬関数に依存しており、様々なDRLタスクやバックドアデザインの普遍性を欠いているため、実際には変動や失敗さえある。
本稿では,パフォーマンスモニタリングによるバックドア報酬関数の適応探索を可能にし,専門家の知識やグリッド検索への依存を解消する,UNIDOORと呼ばれる,最初のユニバーサルアクションレベルのバックドア攻撃フレームワークを提案する。
低頻度なターゲットアクションによる攻撃障害に対処するため、アクションの改ざんは、継続的なアクションシナリオにおけるアクションレベルのバックドアアタックの重要な構成要素である、と強調する。
UNIDOORは、シングル/マルチエージェント、シングル/マルチバックドア、離散/連続アクション空間、スパース/デンス報酬信号など、多様な攻撃シナリオにまたがって、アクションレベルのバックドアの攻撃性能を著しく向上させる。
さらに、状態分布、ニューロン活性化、アニメーションを含む可視化結果は、UNIDOORのステルス性を示す。
UNIDOORのソースコードはhttps://github.com/maoubo/UNIDOORにある。
関連論文リスト
- Act in Collusion: A Persistent Distributed Multi-Target Backdoor in Federated Learning [5.91728247370845]
フェデレーション学習は、その分散した性質のため、バックドア攻撃に対して脆弱である。
我々は、分散マルチターゲットバックドアであるフェデレーション学習のためのより実用的な脅威モデルを提案する。
攻撃後30ラウンド、各種顧客からの3つの異なるバックドアのアタック成功率は93%以上である。
論文 参考訳(メタデータ) (2024-11-06T13:57:53Z) - A Spatiotemporal Stealthy Backdoor Attack against Cooperative Multi-Agent Deep Reinforcement Learning [12.535344011523897]
協調型多エージェント深層強化学習(c-MADRL)は、バックドア攻撃の脅威にさらされている。
我々は,c-MADRLに対する新たなバックドア攻撃を提案し,単一のエージェントにのみバックドアを埋め込むことで,マルチエージェントチーム全体を攻撃する。
私たちのバックドア攻撃は高い攻撃成功率(91.6%)を達成でき、クリーンパフォーマンスのばらつきは低い(3.7%)。
論文 参考訳(メタデータ) (2024-09-12T06:17:37Z) - DeCE: Deceptive Cross-Entropy Loss Designed for Defending Backdoor Attacks [26.24490960002264]
本稿では,コード言語モデルのセキュリティを高めるために,汎用的で効果的な損失関数DeCE(Deceptive Cross-Entropy)を提案する。
さまざまなコード合成データセット,モデル,有毒比による実験は,DeCEの適用性と有効性を示している。
論文 参考訳(メタデータ) (2024-07-12T03:18:38Z) - Revisiting Backdoor Attacks against Large Vision-Language Models from Domain Shift [104.76588209308666]
本稿では,LVLMの学習訓練におけるバックドア攻撃について検討する。
我々は,攻撃の堅牢性を評価するために,新たな評価次元,バックドア領域の一般化を導入する。
本稿では,ドメイン非依存的トリガを臨界領域に注入するマルチモーダルアトリビューションバックドアアタック(MABA)を提案する。
論文 参考訳(メタデータ) (2024-06-27T02:31:03Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - LOTUS: Evasive and Resilient Backdoor Attacks through Sub-Partitioning [49.174341192722615]
バックドア攻撃は、ディープラーニングアプリケーションに重大なセキュリティ脅威をもたらす。
近年の研究では、特殊な変換機能によって作られたサンプル特異的に見えないトリガーを用いた攻撃が導入されている。
我々は、回避性とレジリエンスの両方に対処するために、新しいバックドアアタックLOTUSを導入する。
論文 参考訳(メタデータ) (2024-03-25T21:01:29Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Demystifying Poisoning Backdoor Attacks from a Statistical Perspective [35.30533879618651]
バックドア攻撃は、そのステルス性や潜在的に深刻な影響により、重大なセキュリティリスクを引き起こす。
本稿では,一定のトリガを組み込んだバックドア攻撃の有効性を評価する。
我々の導出した理解は、識別モデルと生成モデルの両方に適用できる。
論文 参考訳(メタデータ) (2023-10-16T19:35:01Z) - Backdoors Stuck At The Frontdoor: Multi-Agent Backdoor Attacks That
Backfire [8.782809316491948]
複数の攻撃者が同時に被害者モデルをバックドアしようとするマルチエージェントバックドア攻撃シナリオについて検討する。
エージェントが集団攻撃の成功率の低いゲームで一貫したバックファイリング現象が観察される。
その結果,実践環境におけるバックドア・ディフェンス研究の再評価の動機となった。
論文 参考訳(メタデータ) (2022-01-28T16:11:40Z) - Check Your Other Door! Establishing Backdoor Attacks in the Frequency
Domain [80.24811082454367]
検出不能で強力なバックドア攻撃を確立するために周波数領域を利用する利点を示す。
また、周波数ベースのバックドア攻撃を成功させる2つの防御方法と、攻撃者がそれらを回避できる可能性を示す。
論文 参考訳(メタデータ) (2021-09-12T12:44:52Z) - BACKDOORL: Backdoor Attack against Competitive Reinforcement Learning [80.99426477001619]
バックドア攻撃を複数のエージェントを含むより複雑なRLシステムに移行する。
概念実証として、敵のエージェントが被害者エージェントのバックドアを独自のアクションでトリガーできることを実証します。
その結果, バックドアが作動すると, 有効でない場合と比較して, 被害者の勝利率は17%から37%に低下することがわかった。
論文 参考訳(メタデータ) (2021-05-02T23:47:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。