論文の概要: Poisoning Deep Reinforcement Learning Agents with In-Distribution
Triggers
- arxiv url: http://arxiv.org/abs/2106.07798v1
- Date: Mon, 14 Jun 2021 23:16:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-16 15:00:02.816489
- Title: Poisoning Deep Reinforcement Learning Agents with In-Distribution
Triggers
- Title(参考訳): in-distribution triggersを用いた深層強化学習エージェントの有毒化
- Authors: Chace Ashcraft, Kiran Karra
- Abstract要約: 我々は,新たなデータ中毒攻撃を提案し,それを深層強化学習エージェントに適用する。
これは、モデルがトレーニングされ、デプロイされるデータ分散にネイティブなトリガーです。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a new data poisoning attack and apply it to deep
reinforcement learning agents. Our attack centers on what we call
in-distribution triggers, which are triggers native to the data distributions
the model will be trained on and deployed in. We outline a simple procedure for
embedding these, and other, triggers in deep reinforcement learning agents
following a multi-task learning paradigm, and demonstrate in three common
reinforcement learning environments. We believe that this work has important
implications for the security of deep learning models.
- Abstract(参考訳): 本稿では,新たなデータ中毒攻撃を提案し,それを深層強化学習エージェントに適用する。
当社のアタックは、モデルがトレーニングし、デプロイされるデータディストリビューションに固有のトリガである、配信内トリガー(in-distribution triggers)と呼ばれるものに集中しています。
本稿では,これらを組み込むための簡単な手順を,マルチタスク学習パラダイムに従って深層強化学習エージェントにトリガーし,3つの共通強化学習環境で実演する。
この研究は、ディープラーニングモデルのセキュリティに重要な意味を持つと考えています。
関連論文リスト
- Attention Tracker: Detecting Prompt Injection Attacks in LLMs [62.247841717696765]
大型言語モデル (LLM) は様々なドメインに革命をもたらしたが、インジェクション攻撃に弱いままである。
そこで本研究では,特定の注意点が本来の指示から注入指示へと焦点を移す,注意散逸効果の概念を紹介した。
本研究では,アテンション・トラッカーを提案する。アテンション・トラッカーは,インジェクション・アタックを検出するために,インストラクション上の注意パターンを追跡する訓練不要な検出手法である。
論文 参考訳(メタデータ) (2024-11-01T04:05:59Z) - A Practical Trigger-Free Backdoor Attack on Neural Networks [33.426207982772226]
トレーニングデータへのアクセスを必要としないトリガーフリーのバックドア攻撃を提案する。
具体的には、悪意のあるデータの概念を攻撃者特定クラスの概念に組み込んだ、新しい微調整アプローチを設計する。
提案した攻撃の有効性,実用性,ステルスネスを実世界の3つのデータセットで評価した。
論文 参考訳(メタデータ) (2024-08-21T08:53:36Z) - DLP: towards active defense against backdoor attacks with decoupled learning process [2.686336957004475]
バックドア攻撃に対する防御のための一般的な訓練パイプラインを提案する。
トレーニング中, 清潔なサブセットと有毒なサブセットで異なる学習行動を示すモデルを示す。
提案手法の有効性は,様々なバックドア攻撃やデータセットにまたがる数多くの実験で実証されている。
論文 参考訳(メタデータ) (2024-06-18T23:04:38Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - Indiscriminate Data Poisoning Attacks on Pre-trained Feature Extractors [26.36344184385407]
本稿では,事前訓練した特徴抽出器を応用した下流タスクに対する無差別攻撃の脅威について検討する。
入力空間攻撃とは,(1)既存の攻撃を修正して入力空間に有毒なデータを作る攻撃と,(2)学習した特徴表現をデータセットとして扱うことで有毒な特徴を見つける攻撃である。
実験では、同じデータセット上の微調整やドメイン適応を考慮した転帰学習など、下流の一般的なタスクにおける攻撃について検討した。
論文 参考訳(メタデータ) (2024-02-20T01:12:59Z) - Pre-trained Trojan Attacks for Visual Recognition [106.13792185398863]
PVM(Pre-trained Vision Model)は、下流タスクを微調整する際、例外的なパフォーマンスのため、主要なコンポーネントとなっている。
本稿では,PVMにバックドアを埋め込んだトロイの木馬攻撃を提案する。
バックドア攻撃の成功において、クロスタスクアクティベーションとショートカット接続がもたらす課題を強調します。
論文 参考訳(メタデータ) (2023-12-23T05:51:40Z) - Multi-target Backdoor Attacks for Code Pre-trained Models [24.37781284059454]
コード事前学習モデルに対するタスク非依存のバックドア攻撃を提案する。
このアプローチは、コードに関連する下流タスクを効果的に、かつ、ステルス的に攻撃することができる。
論文 参考訳(メタデータ) (2023-06-14T08:38:51Z) - Instructions as Backdoors: Backdoor Vulnerabilities of Instruction Tuning for Large Language Models [53.416234157608]
本稿では,タスク命令付きクラウドソースデータセット上でモデルが訓練され,優れたパフォーマンスを実現するという,創発的命令チューニングパラダイムのセキュリティ上の懸念について検討する。
本研究は、悪意のある指示をほとんど出さず、データ中毒によるモデル行動を制御することによって、攻撃者がバックドアを注入できることを実証する。
論文 参考訳(メタデータ) (2023-05-24T04:27:21Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。