論文の概要: Effective Backdoor Mitigation in Vision-Language Models Depends on the Pre-training Objective
- arxiv url: http://arxiv.org/abs/2311.14948v4
- Date: Sat, 11 Jan 2025 00:17:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:29:33.898727
- Title: Effective Backdoor Mitigation in Vision-Language Models Depends on the Pre-training Objective
- Title(参考訳): 事前学習対象物に依存する視覚言語モデルにおける効果的なバックドア緩和
- Authors: Sahil Verma, Gantavya Bhatt, Avi Schwarzschild, Soumye Singhal, Arnav Mohanty Das, Chirag Shah, John P Dickerson, Pin-Yu Chen, Jeff Bilmes,
- Abstract要約: 現代の機械学習モデルは、敵の攻撃やバックドア攻撃に弱い。
このようなリスクは、マルチモーダルモデルをトレーニングするための大規模なインターネットソースデータセット収集の一般的なプラクティスによって高められている。
CleanCLIPは、マルチモーダルモデルにおけるバックドア効果を軽減するための最先端のアプローチである。
- 参考スコア(独自算出の注目度): 71.39995120597999
- License:
- Abstract: Despite the advanced capabilities of contemporary machine learning (ML) models, they remain vulnerable to adversarial and backdoor attacks. This vulnerability is particularly concerning in real-world deployments, where compromised models may exhibit unpredictable behavior in critical scenarios. Such risks are heightened by the prevalent practice of collecting massive, internet-sourced datasets for training multimodal models, as these datasets may harbor backdoors. Various techniques have been proposed to mitigate the effects of backdooring in multimodal models, such as CleanCLIP, which is the current state-of-the-art approach. In this work, we demonstrate that the efficacy of CleanCLIP in mitigating backdoors is highly dependent on the particular objective used during model pre-training. We observe that stronger pre-training objectives that lead to higher zero-shot classification performance correlate with harder to remove backdoors behaviors. We show this by training multimodal models on two large datasets consisting of 3 million (CC3M) and 6 million (CC6M) datapoints, under various pre-training objectives, followed by poison removal using CleanCLIP. We find that CleanCLIP, even with extensive hyperparameter tuning, is ineffective in poison removal when stronger pre-training objectives are used. Our findings underscore critical considerations for ML practitioners who train models using large-scale web-curated data and are concerned about potential backdoor threats.
- Abstract(参考訳): 現代の機械学習(ML)モデルの高度な能力にもかかわらず、敵の攻撃やバックドア攻撃に弱いままである。
この脆弱性は、重要なシナリオで予測不可能な振る舞いを示す可能性のある、妥協されたモデルが現実のデプロイメントに特に関係している。
このようなリスクは、大規模なインターネットソースのデータセットを収集して、マルチモーダルモデルのトレーニングを行なうという一般的なプラクティスによって高められている。
現在最先端のアプローチであるCleanCLIPのようなマルチモーダルモデルにおけるバックドアの効果を緩和する様々な手法が提案されている。
本研究では, バックドアの緩和におけるCleanCLIPの有効性が, モデル事前学習における特定の目的に大きく依存していることを明らかにする。
ゼロショット分類性能の向上につながる学習前目標の強化は,バックドア動作の除去の困難さと相関している。
本研究では,300万(CC3M)データポイントと600万(CC6M)データポイントからなる2つの大規模データセット上で,事前学習目標に基づいてマルチモーダルモデルをトレーニングし,クリーンCLIPを用いて毒を除去する手法を提案する。
広範なハイパーパラメータチューニングであっても,より強い事前学習目標を用いた場合,CleanCLIPは毒の除去には有効でないことが判明した。
本研究は,大規模Webキュレートデータを用いたモデルのトレーニングを行い,バックドアの脅威を懸念するML実践者にとって重要な考察である。
関連論文リスト
- Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - DeCE: Deceptive Cross-Entropy Loss Designed for Defending Backdoor Attacks [26.24490960002264]
本稿では,コード言語モデルのセキュリティを高めるために,汎用的で効果的な損失関数DeCE(Deceptive Cross-Entropy)を提案する。
さまざまなコード合成データセット,モデル,有毒比による実験は,DeCEの適用性と有効性を示している。
論文 参考訳(メタデータ) (2024-07-12T03:18:38Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - End-to-End Anti-Backdoor Learning on Images and Time Series [34.02071390659078]
バックドア攻撃は、ディープラーニングモデルに重大なセキュリティ上の懸念をもたらす。
本稿では、アンチ・バックドア・ラーニング(ABL)を基盤として、革新的な手法であるエンド・ツー・エンド・アンチ・バックドア・ラーニング(E2ABL)を提案する。
E2ABLがDeep Neural Network(DNN)にリンクした追加の分類ヘッドを通じてエンドツーエンドのトレーニングを達成
論文 参考訳(メタデータ) (2024-01-06T13:34:07Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - RelaxLoss: Defending Membership Inference Attacks without Losing Utility [68.48117818874155]
より達成可能な学習目標を持つ緩和された損失に基づく新しい学習フレームワークを提案する。
RelaxLossは、簡単な実装と無視可能なオーバーヘッドのメリットを加えた任意の分類モデルに適用できる。
当社のアプローチはMIAに対するレジリエンスの観点から,常に最先端の防御機構より優れています。
論文 参考訳(メタデータ) (2022-07-12T19:34:47Z) - On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。
一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。
本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2022-02-22T02:24:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。