論文の概要: PNAct: Crafting Backdoor Attacks in Safe Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.00485v1
- Date: Tue, 01 Jul 2025 06:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.447122
- Title: PNAct: Crafting Backdoor Attacks in Safe Reinforcement Learning
- Title(参考訳): PNAct: 安全な強化学習のためのバックドアアタック
- Authors: Weiran Guo, Guanjun Liu, Ziyuan Zhou, Ling Wang,
- Abstract要約: 強化学習(Reinforcement Learning、RL)は、エージェントが報酬を最大化するために環境と対話するタスクで広く使われている。
Safe RLはバックドア攻撃に対して脆弱であり、エージェントを操作して安全でないアクションを実行することができる。
本稿では、Safe RLに関連する潜在的なリスクを強調し、そのような攻撃の可能性を明らかにする。
- 参考スコア(独自算出の注目度): 7.1572446944905375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) is widely used in tasks where agents interact with an environment to maximize rewards. Building on this foundation, Safe Reinforcement Learning (Safe RL) incorporates a cost metric alongside the reward metric, ensuring that agents adhere to safety constraints during decision-making. In this paper, we identify that Safe RL is vulnerable to backdoor attacks, which can manipulate agents into performing unsafe actions. First, we introduce the relevant concepts and evaluation metrics for backdoor attacks in Safe RL. It is the first attack framework in the Safe RL field that involves both Positive and Negative Action sample (PNAct) is to implant backdoors, where positive action samples provide reference actions and negative action samples indicate actions to be avoided. We theoretically point out the properties of PNAct and design an attack algorithm. Finally, we conduct experiments to evaluate the effectiveness of our proposed backdoor attack framework, evaluating it with the established metrics. This paper highlights the potential risks associated with Safe RL and underscores the feasibility of such attacks. Our code and supplementary material are available at https://github.com/azure-123/PNAct.
- Abstract(参考訳): 強化学習(Reinforcement Learning、RL)は、エージェントが報酬を最大化するために環境と対話するタスクで広く使われている。
この基盤の上に、セーフ強化学習(Safe Reinforcement Learning, セーフRL)は、報酬基準と並行してコスト指標を組み、意思決定中にエージェントが安全制約に準拠することを保証する。
本稿では,セーフRLがバックドア攻撃に対して脆弱であることを示す。
まず,Safe RLにおけるバックドアアタックに関する概念と評価指標を紹介する。
Safe RLフィールドにおける最初の攻撃フレームワークであり、PNAct(Positive and Negative Action sample)とPNAct(Negative Action sample)の両方がバックドアを埋め込むことで、正のアクションサンプルが参照アクションを提供し、負のアクションサンプルが回避すべきアクションを示す。
理論的には、PNActの特性を指摘し、攻撃アルゴリズムを設計する。
最後に,提案したバックドアアタック・フレームワークの有効性を評価する実験を行い,確立した指標を用いて評価する。
本稿では、Safe RLに関連する潜在的なリスクを強調し、そのような攻撃の可能性を明らかにする。
私たちのコードと補足資料はhttps://github.com/azure-123/PNAct.comで公開されています。
関連論文リスト
- UNIDOOR: A Universal Framework for Action-Level Backdoor Attacks in Deep Reinforcement Learning [29.276629583642002]
アクションレベルのバックドアは、正確な操作と柔軟なアクティベーションを通じて重大な脅威を引き起こす。
本稿では、UNIDOORと呼ばれる、最初のユニバーサルアクションレベルのバックドアアタックフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-26T13:43:39Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - SleeperNets: Universal Backdoor Poisoning Attacks Against Reinforcement Learning Agents [16.350898218047405]
強化学習(Reinforcement Learning, RL)は、現実世界の安全クリティカルなアプリケーションでの利用が増加している分野である。
この研究では、特にステルス性のRL(バックドア中毒)に対するトレーニングタイムアタックを調査します。
我々は、敵の目的と最適な政策を見出す目的を結びつける新しい毒殺の枠組みを定式化する。
論文 参考訳(メタデータ) (2024-05-30T23:31:25Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Recover Triggered States: Protect Model Against Backdoor Attack in
Reinforcement Learning [23.94769537680776]
バックドア攻撃は、悪意のあるユーザーが環境を操作したり、トレーニングデータを破損させたりすることで、トレーニングされたエージェントにバックドアを挿入することができる。
本稿では,バックドア攻撃から被害者エージェントを効果的に保護する新しい手法であるリカバリトリガードステイト(RTS)手法を提案する。
論文 参考訳(メタデータ) (2023-04-01T08:00:32Z) - Provable Safe Reinforcement Learning with Binary Feedback [62.257383728544006]
状態, アクションペアの安全性に対するバイナリフィードバックを提供するオフラインオラクルへのアクセスを与えられた場合, 証明可能な安全なRLの問題を考える。
我々は,その設定に対してブラックボックスPAC RLアルゴリズムに与えられた任意のMDP設定に適用可能な,新しいメタアルゴリズムSABREを提案する。
論文 参考訳(メタデータ) (2022-10-26T05:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。