論文の概要: Beware Untrusted Simulators -- Reward-Free Backdoor Attacks in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.05089v1
- Date: Wed, 04 Feb 2026 22:17:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.645394
- Title: Beware Untrusted Simulators -- Reward-Free Backdoor Attacks in Reinforcement Learning
- Title(参考訳): 信頼できないシミュレータに注意 -- 強化学習におけるバックドア攻撃
- Authors: Ethan Rathbun, Wo Wei Lin, Alina Oprea, Christopher Amato,
- Abstract要約: 強化学習(RL)により、実践者や研究者は、実際のハードウェアで高価な実験を行うことなく意思決定エージェントを訓練することができる。
シミュレーション環境は強化学習(RL)の成功の重要な部分であり、実践者や研究者は、実際のハードウェアで高価な実験を行うことなく意思決定エージェントを訓練することができる。
この研究で我々は、シミュレーションのダイナミクスをどのように活用して、アクションレベルのバックドアをRLエージェントに密かに埋め込むかを示す、新たな脅威を強調した。
- 参考スコア(独自算出の注目度): 14.770953004784921
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Simulated environments are a key piece in the success of Reinforcement Learning (RL), allowing practitioners and researchers to train decision making agents without running expensive experiments on real hardware. Simulators remain a security blind spot, however, enabling adversarial developers to alter the dynamics of their released simulators for malicious purposes. Therefore, in this work we highlight a novel threat, demonstrating how simulator dynamics can be exploited to stealthily implant action-level backdoors into RL agents. The backdoor then allows an adversary to reliably activate targeted actions in an agent upon observing a predefined ``trigger'', leading to potentially dangerous consequences. Traditional backdoor attacks are limited in their strong threat models, assuming the adversary has near full control over an agent's training pipeline, enabling them to both alter and observe agent's rewards. As these assumptions are infeasible to implement within a simulator, we propose a new attack ``Daze'' which is able to reliably and stealthily implant backdoors into RL agents trained for real world tasks without altering or even observing their rewards. We provide formal proof of Daze's effectiveness in guaranteeing attack success across general RL tasks along with extensive empirical evaluations on both discrete and continuous action space domains. We additionally provide the first example of RL backdoor attacks transferring to real, robotic hardware. These developments motivate further research into securing all components of the RL training pipeline to prevent malicious attacks.
- Abstract(参考訳): シミュレーション環境は強化学習(RL)の成功の重要な部分であり、実践者や研究者は、実際のハードウェアで高価な実験を行うことなく意思決定エージェントを訓練することができる。
しかし、シミュレーターは依然としてセキュリティの盲点であり、敵の開発者は悪意のある目的のためにリリースしたシミュレーターのダイナミクスを変更することができる。
そこで本研究では, シミュレーションのダイナミクスを利用して, アクションレベルのバックドアをRLエージェントに密かに埋め込むという, 新たな脅威を浮き彫りにする。
バックドアは、事前に定義された ''trigger''' を観察すると、エージェント内のターゲットアクションを確実に活性化し、潜在的に危険な結果をもたらす。
従来のバックドア攻撃は、敵がエージェントの訓練パイプラインを完全に制御し、エージェントの報酬を変更および観察することができると仮定して、強力な脅威モデルで制限されている。
これらの仮定はシミュレータ内で実装することができないため,実世界の課題に対してトレーニングされたRLエージェントにバックドアを確実かつ巧みに埋め込むことができる新たな攻撃法である ‘Daze' を提案する。
本稿では、一般的なRLタスクにおける攻撃成功を保証する上でのDazの有効性の正式な証明と、離散的かつ連続的なアクション空間領域に関する広範な経験的評価について述べる。
さらに,本研究では,ロボットハードウェアへのRLバックドア攻撃の初例についても紹介する。
これらの開発は、悪意のある攻撃を防ぐためにRLトレーニングパイプラインのすべてのコンポーネントを確保するためのさらなる研究を動機付けている。
関連論文リスト
- Beyond Training-time Poisoning: Component-level and Post-training Backdoors in Deep Reinforcement Learning [2.8311497176067104]
深層強化学習(Dep Reinforcement Learning, DRL)システムは、安全クリティカルなアプリケーションでますます使われているが、そのセキュリティはいまだに過小評価されている。
本研究は、特定の入力が観測空間に現れる場合にのみ悪意ある行為を引き起こす隠されたトリガーを埋め込むバックドア攻撃を調査する。
1) 完全モデル再訓練に耐える持続的バックドアを移植するためにコンポーネントレベルの欠陥を利用するTrojanentRLと,(2) トレーニングや検証,テストデータへのアクセスを必要としないトレーニング後のバックドア攻撃であるInfrectroRLである。
論文 参考訳(メタデータ) (2025-07-07T11:15:54Z) - SleeperNets: Universal Backdoor Poisoning Attacks Against Reinforcement Learning Agents [16.350898218047405]
強化学習(Reinforcement Learning, RL)は、現実世界の安全クリティカルなアプリケーションでの利用が増加している分野である。
この研究では、特にステルス性のRL(バックドア中毒)に対するトレーニングタイムアタックを調査します。
我々は、敵の目的と最適な政策を見出す目的を結びつける新しい毒殺の枠組みを定式化する。
論文 参考訳(メタデータ) (2024-05-30T23:31:25Z) - Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。
本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。
PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T07:52:26Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Recover Triggered States: Protect Model Against Backdoor Attack in
Reinforcement Learning [23.94769537680776]
バックドア攻撃は、悪意のあるユーザーが環境を操作したり、トレーニングデータを破損させたりすることで、トレーニングされたエージェントにバックドアを挿入することができる。
本稿では,バックドア攻撃から被害者エージェントを効果的に保護する新しい手法であるリカバリトリガードステイト(RTS)手法を提案する。
論文 参考訳(メタデータ) (2023-04-01T08:00:32Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。
一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。
本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2022-02-22T02:24:46Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - BACKDOORL: Backdoor Attack against Competitive Reinforcement Learning [80.99426477001619]
バックドア攻撃を複数のエージェントを含むより複雑なRLシステムに移行する。
概念実証として、敵のエージェントが被害者エージェントのバックドアを独自のアクションでトリガーできることを実証します。
その結果, バックドアが作動すると, 有効でない場合と比較して, 被害者の勝利率は17%から37%に低下することがわかった。
論文 参考訳(メタデータ) (2021-05-02T23:47:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。