論文の概要: Two Heads are Better than One: Nested PoE for Robust Defense Against Multi-Backdoors
- arxiv url: http://arxiv.org/abs/2404.02356v1
- Date: Tue, 2 Apr 2024 22:58:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 19:09:09.796774
- Title: Two Heads are Better than One: Nested PoE for Robust Defense Against Multi-Backdoors
- Title(参考訳): 2つの頭は1つより優れている:複数ドアに対するロバストな防御のためのネストポエ
- Authors: Victoria Graf, Qin Liu, Muhao Chen,
- Abstract要約: 既存の防御機構は、攻撃者が採用するトリガーの種類は1つしかないと仮定する。
本研究では,Nested Product of Experts(NPoE)防衛フレームワークを提案する。
NPoEは、別々に、およびトリガー混合物において、様々なトリガーに対して効果的に防御する。
- 参考スコア(独自算出の注目度): 28.28109484076211
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data poisoning backdoor attacks can cause undesirable behaviors in large language models (LLMs), and defending against them is of increasing importance. Existing defense mechanisms often assume that only one type of trigger is adopted by the attacker, while defending against multiple simultaneous and independent trigger types necessitates general defense frameworks and is relatively unexplored. In this paper, we propose Nested Product of Experts(NPoE) defense framework, which involves a mixture of experts (MoE) as a trigger-only ensemble within the PoE defense framework to simultaneously defend against multiple trigger types. During NPoE training, the main model is trained in an ensemble with a mixture of smaller expert models that learn the features of backdoor triggers. At inference time, only the main model is used. Experimental results on sentiment analysis, hate speech detection, and question classification tasks demonstrate that NPoE effectively defends against a variety of triggers both separately and in trigger mixtures. Due to the versatility of the MoE structure in NPoE, this framework can be further expanded to defend against other attack settings
- Abstract(参考訳): データ中毒によるバックドア攻撃は、大きな言語モデル(LLM)において望ましくない振る舞いを引き起こす可能性がある。
既存の防御機構では、攻撃者によって1つのタイプのトリガーのみが採用されていると仮定されるが、複数の同時かつ独立したトリガータイプに対する防御は一般的な防御フレームワークを必要とし、比較的探索されていない。
本稿では,複数のトリガタイプに対して同時に防御するための,PoE防衛フレームワーク内でのトリガのみのアンサンブルとして,専門家(MoE)の混在を伴うNested Product of Experts(NPoE)防衛フレームワークを提案する。
NPoEトレーニング中、メインモデルは、バックドアトリガーの特徴を学ぶための、より小さな専門家モデルとのアンサンブルでトレーニングされる。
推論時には、メインモデルのみを使用する。
感情分析、ヘイトスピーチ検出、質問分類タスクによる実験結果から、NPoEは様々なトリガとトリガの混合を効果的に防御することが示された。
NPoEにおけるMoE構造の汎用性のため、このフレームワークは、他の攻撃設定から防御するためにさらに拡張することができる。
関連論文リスト
- Non-Cooperative Backdoor Attacks in Federated Learning: A New Threat Landscape [7.00762739959285]
プライバシ保護モデルトレーニングのためのフェデレートラーニング(FL)は、バックドア攻撃の影響を受けやすいままである。
本研究は,発展途上のFL景観におけるバックドア攻撃に対する堅牢な防御の必要性を強調した。
論文 参考訳(メタデータ) (2024-07-05T22:03:13Z) - Meta Invariance Defense Towards Generalizable Robustness to Unknown Adversarial Attacks [62.036798488144306]
現在の防衛は主に既知の攻撃に焦点を当てているが、未知の攻撃に対する敵意の強固さは見過ごされている。
メタ不変防衛(Meta Invariance Defense, MID)と呼ばれる攻撃非依存の防御手法を提案する。
MIDは高レベルの画像分類と低レベルの頑健な画像再生における攻撃抑制において,知覚不能な逆方向の摂動に対して同時に頑健性を実現する。
論文 参考訳(メタデータ) (2024-04-04T10:10:38Z) - On the Difficulty of Defending Contrastive Learning against Backdoor
Attacks [58.824074124014224]
バックドア攻撃が、特有のメカニズムによってどのように動作するかを示す。
本研究は, 対照的なバックドア攻撃の特異性に合わせて, 防御の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2023-12-14T15:54:52Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - FTA: Stealthy and Adaptive Backdoor Attack with Flexible Triggers on
Federated Learning [11.636353298724574]
我々は,新たなステルスで堅牢なバックドア攻撃を,連邦学習(FL)防衛に対して提案する。
我々は、許容できない柔軟なトリガーパターンで良質なサンプルを操作することを学べる生成的トリガー関数を構築した。
我々のトリガージェネレータは学習を継続し、異なるラウンドにまたがって適応し、グローバルモデルの変化に適応できるようにします。
論文 参考訳(メタデータ) (2023-08-31T20:25:54Z) - From Shortcuts to Triggers: Backdoor Defense with Denoised PoE [51.287157951953226]
言語モデルは、しばしば多様なバックドア攻撃、特にデータ中毒の危険にさらされる。
既存のバックドア防御手法は主に明示的なトリガーによるバックドア攻撃に焦点を当てている。
我々は,様々なバックドア攻撃を防御するために,エンド・ツー・エンドアンサンブルに基づくバックドア防御フレームワークDPoEを提案する。
論文 参考訳(メタデータ) (2023-05-24T08:59:25Z) - MultiRobustBench: Benchmarking Robustness Against Multiple Attacks [86.70417016955459]
機械学習(ML)モデルに対するマルチアタックを検討するための,最初の統一フレームワークを提案する。
我々のフレームワークは、テストタイムの敵について異なるレベルの学習者の知識をモデル化することができる。
9種類の攻撃に対して16種類の防御モデルの有効性を評価した。
論文 参考訳(メタデータ) (2023-02-21T20:26:39Z) - Game Theoretic Mixed Experts for Combinational Adversarial Machine
Learning [10.368343314144553]
我々は、敵の攻撃と防御をアンサンブルするためのゲーム理論の枠組みを提供する。
本稿では, ランダム化変換, マルチモデル投票方式, 対向検出器アーキテクチャによる防御を目標とする3つの新しい攻撃アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:35:01Z) - Marksman Backdoor: Backdoor Attacks with Arbitrary Target Class [17.391987602738606]
近年、機械学習モデルはバックドア攻撃に弱いことが示されている。
この論文は、マークスマン(Marksman)と呼ばれるより強力なペイロードを持つ、新しいバックドア攻撃を利用する。
提案するフレームワークは,複数のベンチマークデータセットにおいてクリーンデータ性能を維持しつつ,高い攻撃性能を実現することを実証的に示す。
論文 参考訳(メタデータ) (2022-10-17T15:46:57Z) - Defensive Few-shot Learning [77.82113573388133]
本稿では,防御的数発学習という新たな課題について検討する。
敵の攻撃に対して頑丈な数発のモデルを学習することを目的としている。
提案したフレームワークは、既存の数発のモデルを敵攻撃に対して効果的に堅牢にすることができる。
論文 参考訳(メタデータ) (2019-11-16T05:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。