論文の概要: Effective Backdoor Mitigation Depends on the Pre-training Objective
- arxiv url: http://arxiv.org/abs/2311.14948v1
- Date: Sat, 25 Nov 2023 06:55:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 22:44:13.565108
- Title: Effective Backdoor Mitigation Depends on the Pre-training Objective
- Title(参考訳): 事前学習目標によるバックドアの効果的緩和
- Authors: Sahil Verma and Gantavya Bhatt and Avi Schwarzschild and Soumye
Singhal and Arnav Mohanty Das and Chirag Shah and John P Dickerson and Jeff
Bilmes
- Abstract要約: より強い事前学習目標を使用する場合,CreateCLIPは有効ではないことを示す。
この洞察は、より強力な事前訓練目標とバックドア攻撃に対するセキュリティとのトレードオフのバランスを求める実践者にとって重要なものだ。
- 参考スコア(独自算出の注目度): 39.5828349583098
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite the advanced capabilities of contemporary machine learning (ML)
models, they remain vulnerable to adversarial and backdoor attacks. This
vulnerability is particularly concerning in real-world deployments, where
compromised models may exhibit unpredictable behavior in critical scenarios.
Such risks are heightened by the prevalent practice of collecting massive,
internet-sourced datasets for pre-training multimodal models, as these datasets
may harbor backdoors. Various techniques have been proposed to mitigate the
effects of backdooring in these models such as CleanCLIP which is the current
state-of-the-art approach.
In this work, we demonstrate that the efficacy of CleanCLIP in mitigating
backdoors is highly dependent on the particular objective used during model
pre-training.
We observe that stronger pre-training objectives correlate with harder to
remove backdoors behaviors. We show this by training multimodal models on two
large datasets consisting of 3 million (CC3M) and 6 million (CC6M) datapoints,
under various pre-training objectives, followed by poison removal using
CleanCLIP. We find that CleanCLIP is ineffective when stronger pre-training
objectives are used, even with extensive hyperparameter tuning.
Our findings underscore critical considerations for ML practitioners who
pre-train models using large-scale web-curated data and are concerned about
potential backdoor threats. Notably, our results suggest that simpler
pre-training objectives are more amenable to effective backdoor removal. This
insight is pivotal for practitioners seeking to balance the trade-offs between
using stronger pre-training objectives and security against backdoor attacks.
- Abstract(参考訳): 現代の機械学習(ML)モデルの高度な能力にもかかわらず、敵やバックドア攻撃に弱いままである。
この脆弱性は、重要なシナリオで予測不可能な振る舞いを示す可能性のある、妥協されたモデルが現実のデプロイメントに特に関係している。
このようなリスクは、大規模なインターネットソースのデータセットを収集して、マルチモーダルモデルの事前トレーニングを行うことによって高められる。
現在最先端のアプローチであるCleanCLIPなど、これらのモデルにおけるバックドアの効果を緩和する様々な手法が提案されている。
本研究では,バックドアの緩和におけるcleanclipの有効性が,モデル事前学習における特定の目的に大きく依存していることを示す。
我々は,より強固な事前学習目標とバックドアの動作の除去が難しいことに注目した。
我々は,300万 (cc3m) と600万 (cc6m) のデータポイントからなる2つの大規模データセットでマルチモーダルモデルをトレーニングし,さらにcleanclipを用いた毒物除去を行った。
広範囲なハイパーパラメータチューニングであっても、より強力な事前学習目標が使用される場合、CleanCLIPは効果がないことが判明した。
本研究は,大規模ウェブカレーションデータを用いた事前トレーニングモデルを構築し,バックドアの脅威を懸念するML実践者にとって重要な考察である。
特に,より単純な事前学習目標が,効果的なバックドア除去に適していることが示唆された。
この洞察は、より強い事前訓練目標とバックドア攻撃に対するセキュリティとのトレードオフのバランスを求める実践者にとって重要なものだ。
関連論文リスト
- Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - DeCE: Deceptive Cross-Entropy Loss Designed for Defending Backdoor Attacks [26.24490960002264]
本稿では,コード言語モデルのセキュリティを高めるために,汎用的で効果的な損失関数DeCE(Deceptive Cross-Entropy)を提案する。
さまざまなコード合成データセット,モデル,有毒比による実験は,DeCEの適用性と有効性を示している。
論文 参考訳(メタデータ) (2024-07-12T03:18:38Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - End-to-End Anti-Backdoor Learning on Images and Time Series [34.02071390659078]
バックドア攻撃は、ディープラーニングモデルに重大なセキュリティ上の懸念をもたらす。
本稿では、アンチ・バックドア・ラーニング(ABL)を基盤として、革新的な手法であるエンド・ツー・エンド・アンチ・バックドア・ラーニング(E2ABL)を提案する。
E2ABLがDeep Neural Network(DNN)にリンクした追加の分類ヘッドを通じてエンドツーエンドのトレーニングを達成
論文 参考訳(メタデータ) (2024-01-06T13:34:07Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - RelaxLoss: Defending Membership Inference Attacks without Losing Utility [68.48117818874155]
より達成可能な学習目標を持つ緩和された損失に基づく新しい学習フレームワークを提案する。
RelaxLossは、簡単な実装と無視可能なオーバーヘッドのメリットを加えた任意の分類モデルに適用できる。
当社のアプローチはMIAに対するレジリエンスの観点から,常に最先端の防御機構より優れています。
論文 参考訳(メタデータ) (2022-07-12T19:34:47Z) - On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。
一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。
本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2022-02-22T02:24:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。