論文の概要: Can We Trust the Unlabeled Target Data? Towards Backdoor Attack and Defense on Model Adaptation
- arxiv url: http://arxiv.org/abs/2401.06030v1
- Date: Thu, 11 Jan 2024 16:42:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 12:47:21.939076
- Title: Can We Trust the Unlabeled Target Data? Towards Backdoor Attack and Defense on Model Adaptation
- Title(参考訳): ラベルのないターゲットデータを信頼できるか? -バックドアアタックとモデル適応の防御に向けて-
- Authors: Lijun Sheng, Jian Liang, Ran He, Zilei Wang, Tieniu Tan,
- Abstract要約: 本研究は, よく設計された毒物標的データによるモデル適応に対するバックドア攻撃の可能性を探る。
既存の適応アルゴリズムと組み合わせたMixAdaptというプラグイン・アンド・プレイ方式を提案する。
- 参考スコア(独自算出の注目度): 120.42853706967188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model adaptation tackles the distribution shift problem with a pre-trained model instead of raw data, becoming a popular paradigm due to its great privacy protection. Existing methods always assume adapting to a clean target domain, overlooking the security risks of unlabeled samples. In this paper, we explore the potential backdoor attacks on model adaptation launched by well-designed poisoning target data. Concretely, we provide two backdoor triggers with two poisoning strategies for different prior knowledge owned by attackers. These attacks achieve a high success rate and keep the normal performance on clean samples in the test stage. To defend against backdoor embedding, we propose a plug-and-play method named MixAdapt, combining it with existing adaptation algorithms. Experiments across commonly used benchmarks and adaptation methods demonstrate the effectiveness of MixAdapt. We hope this work will shed light on the safety of learning with unlabeled data.
- Abstract(参考訳): モデル適応は、生データの代わりに事前訓練されたモデルによる分散シフト問題に取り組み、その優れたプライバシー保護のために一般的なパラダイムとなっている。
既存の方法は、常にクリーンなターゲットドメインへの適応を前提としており、ラベルのないサンプルのセキュリティリスクを見落としている。
本稿では, よく設計された毒物標的データによるモデル適応に対するバックドア攻撃の可能性について検討する。
具体的には、2つのバックドアトリガーと、攻撃者が所有する異なる事前知識に対する2つの毒殺戦略を提供する。
これらの攻撃は高い成功率を達成し、テストステージにおけるクリーンなサンプルの正常なパフォーマンスを維持する。
バックドアの埋め込みを防止するため,MixAdaptというプラグイン・アンド・プレイ方式を提案し,既存の適応アルゴリズムと組み合わせた。
一般的なベンチマークと適応手法による実験は、MixAdaptの有効性を示している。
この成果が、ラベルのないデータによる学習の安全性を損なうことを願っている。
関連論文リスト
- Backdoor Defense through Self-Supervised and Generative Learning [0.0]
このようなデータのトレーニングは、選択されたテストサンプルに悪意のある推論を引き起こすバックドアを注入する。
本稿では,自己教師付き表現空間におけるクラスごとの分布生成モデルに基づくアプローチを提案する。
どちらの場合も、クラスごとの生成モデルにより、有毒なデータを検出し、データセットをクリーン化することができます。
論文 参考訳(メタデータ) (2024-09-02T11:40:01Z) - SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - DataElixir: Purifying Poisoned Dataset to Mitigate Backdoor Attacks via
Diffusion Models [12.42597979026873]
汚染されたデータセットを浄化するための新しい衛生手法であるDataElixirを提案する。
我々は拡散モデルを利用してトリガーの特徴を排除し、良性の特徴を復元し、毒を盛ったサンプルを良性のものに変える。
9つの人気のある攻撃で実施された実験は、DataElixirが様々な複雑な攻撃を効果的に軽減し、良識の正確さに最小限の影響を与えることを示した。
論文 参考訳(メタデータ) (2023-12-18T09:40:38Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - IMBERT: Making BERT Immune to Insertion-based Backdoor Attacks [45.81957796169348]
バックドア攻撃は、機械学習モデルに対する汚いセキュリティ脅威だ。
IMBERTは、被害者モデルから得られた勾配または自己注意スコアを用いて、バックドア攻撃に対する自己防衛を行う。
我々の実証研究は、IMBERTが挿入されたトリガーの98.5%を効果的に識別できることを示した。
論文 参考訳(メタデータ) (2023-05-25T22:08:57Z) - AdaptGuard: Defending Against Universal Attacks for Model Adaptation [129.2012687550069]
モデル適応アルゴリズムにおいて、ソースドメインから転送されるユニバーサルアタックに対する脆弱性について検討する。
本稿では,モデル適応アルゴリズムの安全性を向上させるために,AdaptGuardというモデル前処理フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-19T07:53:31Z) - Versatile Weight Attack via Flipping Limited Bits [68.45224286690932]
本研究では,展開段階におけるモデルパラメータを変更する新たな攻撃パラダイムについて検討する。
有効性とステルスネスの目標を考慮し、ビットフリップに基づく重み攻撃を行うための一般的な定式化を提供する。
SSA(Single sample attack)とTSA(Singr sample attack)の2例を報告した。
論文 参考訳(メタデータ) (2022-07-25T03:24:58Z) - Be Careful about Poisoned Word Embeddings: Exploring the Vulnerability
of the Embedding Layers in NLP Models [27.100909068228813]
最近の研究では、バックドア攻撃と呼ばれる自然言語処理(NLP)モデルに対するセキュリティの脅威が明らかになった。
本稿では,1つの単語埋め込みベクトルを変更することで,データフリーな方法でモデルをハックできることを見出した。
感情分析および文対分類タスクの実験結果から,本手法はより効率的でステルス性が高いことが示された。
論文 参考訳(メタデータ) (2021-03-29T12:19:45Z) - How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。
本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。
我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文 参考訳(メタデータ) (2020-12-02T15:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。