Fugu-MT 論文翻訳(概要): Recover Triggered States: Protect Model Against Backdoor Attack in Reinforcement Learning

論文の概要: Recover Triggered States: Protect Model Against Backdoor Attack in Reinforcement Learning

arxiv url: http://arxiv.org/abs/2304.00252v1
Date: Sat, 1 Apr 2023 08:00:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-04 19:04:01.208044
Title: Recover Triggered States: Protect Model Against Backdoor Attack in Reinforcement Learning
Title（参考訳）: Recover Triggered States: 強化学習におけるバックドア攻撃に対する保護モデル
Authors: Hao Chen, Chen Gong, Yizhe Wang, Xinwen Hou
Abstract要約: バックドア攻撃は、悪意のあるユーザーが環境を操作したり、トレーニングデータを破損させたりすることで、トレーニングされたエージェントにバックドアを挿入することができる。本稿では,バックドア攻撃から被害者エージェントを効果的に保護する新しい手法であるリカバリトリガードステイト(RTS)手法を提案する。
参考スコア（独自算出の注目度）: 23.94769537680776
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A backdoor attack allows a malicious user to manipulate the environment or corrupt the training data, thus inserting a backdoor into the trained agent. Such attacks compromise the RL system's reliability, leading to potentially catastrophic results in various key fields. In contrast, relatively limited research has investigated effective defenses against backdoor attacks in RL. This paper proposes the Recovery Triggered States (RTS) method, a novel approach that effectively protects the victim agents from backdoor attacks. RTS involves building a surrogate network to approximate the dynamics model. Developers can then recover the environment from the triggered state to a clean state, thereby preventing attackers from activating backdoors hidden in the agent by presenting the trigger. When training the surrogate to predict states, we incorporate agent action information to reduce the discrepancy between the actions taken by the agent on predicted states and the actions taken on real states. RTS is the first approach to defend against backdoor attacks in a single-agent setting. Our results show that using RTS, the cumulative reward only decreased by 1.41% under the backdoor attack.
Abstract（参考訳）: バックドア攻撃は、悪意のあるユーザーが環境を操作したり、トレーニングデータを破損させたりすることで、トレーニングされたエージェントにバックドアを挿入することができる。このような攻撃はRLシステムの信頼性を損なうものであり、様々な分野で破滅的な結果をもたらす可能性がある。対照的に、比較的限られた研究は、RLのバックドア攻撃に対する効果的な防御について研究している。本稿では,バックドア攻撃から被害者エージェントを効果的に保護する新しい手法であるリカバリトリガードステイト(RTS)手法を提案する。 RTSは、ダイナミクスモデルを近似するために代理ネットワークを構築する。開発者はトリガの状態からクリーンな状態に環境を回復できるため、攻撃者がトリガーを提示することでエージェント内に隠されたバックドアを活性化するのを防ぐことができる。シュロゲートをトレーニングして状態を予測した場合、エージェントアクション情報を組み込んで、エージェントが予測した状態に対するアクションと実際の状態に対するアクションとの相違を低減する。 RTSは、単一エージェント環境でバックドア攻撃を防御する最初のアプローチである。以上の結果から,RTSの累積報酬はバックドア攻撃で1.41%減少した。

関連論文リスト

Your Agent Can Defend Itself against Backdoor Attacks [0.0]
大規模言語モデル(LLM)を駆使したエージェントは、トレーニングと微調整の間、バックドア攻撃による重大なセキュリティリスクに直面している。本稿では,LDMをベースとしたエージェントに対するバックドア攻撃に対する新たな防御策であるReAgentを紹介する。
論文参考訳（メタデータ） (2025-06-10T01:45:56Z)
BLAST: A Stealthy Backdoor Leverage Attack against Cooperative Multi-Agent Deep Reinforcement Learning based Systems [11.776860619017867]
協調型多エージェント深層強化学習(c-MADRL)は、バックドア攻撃の脅威にさらされている。我々は,c-MADRLに対して,単一のエージェントに唯一のバックドアを埋め込むことで,マルチエージェントチーム全体を攻撃する新しいバックドアレバレッジアタックを提案する。
論文参考訳（メタデータ） (2025-01-03T01:33:29Z)
Data Free Backdoor Attacks [83.10379074100453]
DFBAは、モデルアーキテクチャを変更することなく、リトレーニングフリーでデータフリーのバックドア攻撃である。我々の注入されたバックドアは、様々な最先端の防御策によって、検出不可能で、検出不能であることを確認した。複数のデータセットに対する評価では,1) 無視可能な分類損失,2) 攻撃成功率,3) 既存の6つの防御を回避している。
論文参考訳（メタデータ） (2024-12-09T05:30:25Z)
Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文参考訳（メタデータ） (2024-09-29T02:55:38Z)
A Spatiotemporal Stealthy Backdoor Attack against Cooperative Multi-Agent Deep Reinforcement Learning [12.535344011523897]
協調型多エージェント深層強化学習(c-MADRL)は、バックドア攻撃の脅威にさらされている。我々は,c-MADRLに対する新たなバックドア攻撃を提案し,単一のエージェントにのみバックドアを埋め込むことで,マルチエージェントチーム全体を攻撃する。私たちのバックドア攻撃は高い攻撃成功率(91.6%)を達成でき、クリーンパフォーマンスのばらつきは低い(3.7%)。
論文参考訳（メタデータ） (2024-09-12T06:17:37Z)
Breaking the False Sense of Security in Backdoor Defense through Re-Activation Attack [32.74007523929888]
防衛後のバックドアモデルの特徴を再検討する。既存の訓練後防衛戦略から派生した防衛モデルには,元のバックドアが現存していることが判明した。我々は,これらの休眠バックドアを推論中に簡単に再活性化できることを実証的に示す。
論文参考訳（メタデータ） (2024-05-25T08:57:30Z)
Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。 PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文参考訳（メタデータ） (2024-05-25T07:52:26Z)
SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文参考訳（メタデータ） (2024-05-19T14:50:09Z)
BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文参考訳（メタデータ） (2023-11-20T02:21:49Z)
On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文参考訳（メタデータ） (2022-02-22T02:24:46Z)
Backdoors Stuck At The Frontdoor: Multi-Agent Backdoor Attacks That Backfire [8.782809316491948]
複数の攻撃者が同時に被害者モデルをバックドアしようとするマルチエージェントバックドア攻撃シナリオについて検討する。エージェントが集団攻撃の成功率の低いゲームで一貫したバックファイリング現象が観察される。その結果,実践環境におけるバックドア・ディフェンス研究の再評価の動機となった。
論文参考訳（メタデータ） (2022-01-28T16:11:40Z)
Widen The Backdoor To Let More Attackers In [24.540853975732922]
マルチエージェントバックドア攻撃のシナリオについて検討し、複数の非衝突攻撃者が共有データセットにトリガサンプルを挿入する。攻撃者数の増加は攻撃者の攻撃成功率を減少させる。そして、この現象を利用して攻撃者の集合的ASRを最小化し、防御者の堅牢性を最大化する。
論文参考訳（メタデータ） (2021-10-09T13:53:57Z)
BACKDOORL: Backdoor Attack against Competitive Reinforcement Learning [80.99426477001619]
バックドア攻撃を複数のエージェントを含むより複雑なRLシステムに移行する。概念実証として、敵のエージェントが被害者エージェントのバックドアを独自のアクションでトリガーできることを実証します。その結果, バックドアが作動すると, 有効でない場合と比較して, 被害者の勝利率は17%から37%に低下することがわかった。
論文参考訳（メタデータ） (2021-05-02T23:47:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。