論文の概要: Exposing Vulnerabilities in RL: A Novel Stealthy Backdoor Attack through Reward Poisoning
- arxiv url: http://arxiv.org/abs/2511.22415v1
- Date: Thu, 27 Nov 2025 12:48:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.568499
- Title: Exposing Vulnerabilities in RL: A Novel Stealthy Backdoor Attack through Reward Poisoning
- Title(参考訳): RLにおける脆弱性の暴露--Reward Poisoningによる新たなステルス性バックドアアタック
- Authors: Bokang Zhang, Chaojun Lu, Jianhui Li, Junfeng Wu,
- Abstract要約: 我々は,報酬信号に毒を加えてエージェントのポリシーを操るステルスなバックドア攻撃について研究する。
この攻撃の有効性は、デプロイされたRLシステムの完全性に対する重大な脅威を浮き彫りにする。
- 参考スコア(独自算出の注目度): 5.764005502656677
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement learning (RL) has achieved remarkable success across diverse domains, enabling autonomous systems to learn and adapt to dynamic environments by optimizing a reward function. However, this reliance on reward signals creates a significant security vulnerability. In this paper, we study a stealthy backdoor attack that manipulates an agent's policy by poisoning its reward signals. The effectiveness of this attack highlights a critical threat to the integrity of deployed RL systems and calls for urgent defenses against training-time manipulation. We evaluate the attack across classic control and MuJoCo environments. The backdoored agent remains highly stealthy in Hopper and Walker2D, with minimal performance drops of only 2.18 % and 4.59 % under non-triggered scenarios, while achieving strong attack efficacy with up to 82.31% and 71.27% declines under trigger conditions.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、自律的なシステムが報酬関数を最適化することにより、動的環境を学習し、適応できるようにする。
しかし、この報奨信号への依存は、重大なセキュリティ上の脆弱性を引き起こす。
本稿では,報酬信号に毒を加えてエージェントのポリシーを操るステルスなバックドア攻撃について検討する。
この攻撃の有効性は、展開されたRLシステムの完全性に対する重要な脅威と、訓練時の操作に対する緊急防衛の必要性を強調している。
古典的な制御環境と MuJoCo 環境をまたいだ攻撃を評価する。
バックドア・エージェントはホッパーとウォーカー2Dでは高いステルス性を維持し、非トリガーシナリオでは2.18 %と4.59 %の最小性能低下しかなく、トリガー条件下では82.31%と71.27%まで強力な攻撃効果を達成していない。
関連論文リスト
- Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in CLIP [51.04452017089568]
CBPT(Class-wise Backdoor Prompt Tuning)は、テキストプロンプトでCLIPを間接的に浄化する効率的な防御機構である。
CBPTは、モデルユーティリティを保持しながら、バックドアの脅威を著しく軽減する。
論文 参考訳(メタデータ) (2025-02-26T16:25:15Z) - Adversarial Inception Backdoor Attacks against Reinforcement Learning [16.350898218047405]
最近の研究は、訓練時間、バックドア中毒に対するDeep Reinforcement Learning (DRL)アルゴリズムの脆弱性を実証している。
本稿では,厳格な報酬制約の下で,DRLに対する新たなバックドア攻撃法を提案する。
論文 参考訳(メタデータ) (2024-10-17T19:50:28Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - SleeperNets: Universal Backdoor Poisoning Attacks Against Reinforcement Learning Agents [16.350898218047405]
強化学習(Reinforcement Learning, RL)は、現実世界の安全クリティカルなアプリケーションでの利用が増加している分野である。
この研究では、特にステルス性のRL(バックドア中毒)に対するトレーニングタイムアタックを調査します。
我々は、敵の目的と最適な政策を見出す目的を結びつける新しい毒殺の枠組みを定式化する。
論文 参考訳(メタデータ) (2024-05-30T23:31:25Z) - SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Recover Triggered States: Protect Model Against Backdoor Attack in
Reinforcement Learning [23.94769537680776]
バックドア攻撃は、悪意のあるユーザーが環境を操作したり、トレーニングデータを破損させたりすることで、トレーニングされたエージェントにバックドアを挿入することができる。
本稿では,バックドア攻撃から被害者エージェントを効果的に保護する新しい手法であるリカバリトリガードステイト(RTS)手法を提案する。
論文 参考訳(メタデータ) (2023-04-01T08:00:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。