論文の概要: Backdoor in Seconds: Unlocking Vulnerabilities in Large Pre-trained Models via Model Editing
- arxiv url: http://arxiv.org/abs/2410.18267v1
- Date: Wed, 23 Oct 2024 20:32:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 16:43:50.995192
- Title: Backdoor in Seconds: Unlocking Vulnerabilities in Large Pre-trained Models via Model Editing
- Title(参考訳): バックドア・イン・秒:モデル編集による大規模事前訓練モデルにおける脆弱性のロック解除
- Authors: Dongliang Guo, Mengxuan Hu, Zihan Guan, Junfeng Guo, Thomas Hartvigsen, Sheng Li,
- Abstract要約: ある種の敵攻撃は、トレーニングデータセットを汚染することで、機械学習モデルの振る舞いを操作できる。
EDTモデル, textbfEfficient, textbfData-free, textbfTraining-free バックドアアタック手法を導入する。
モデル編集技術にインスパイアされたEDTは、編集ベースの軽量コードブックを、大規模な事前訓練されたモデルのバックドアに注入する。
- 参考スコア(独自算出の注目度): 21.52641337754884
- License:
- Abstract: Large pre-trained models have achieved notable success across a range of downstream tasks. However, recent research shows that a type of adversarial attack ($\textit{i.e.,}$ backdoor attack) can manipulate the behavior of machine learning models through contaminating their training dataset, posing significant threat in the real-world application of large pre-trained model, especially for those customized models. Therefore, addressing the unique challenges for exploring vulnerability of pre-trained models is of paramount importance. Through empirical studies on the capability for performing backdoor attack in large pre-trained models ($\textit{e.g.,}$ ViT), we find the following unique challenges of attacking large pre-trained models: 1) the inability to manipulate or even access large training datasets, and 2) the substantial computational resources required for training or fine-tuning these models. To address these challenges, we establish new standards for an effective and feasible backdoor attack in the context of large pre-trained models. In line with these standards, we introduce our EDT model, an \textbf{E}fficient, \textbf{D}ata-free, \textbf{T}raining-free backdoor attack method. Inspired by model editing techniques, EDT injects an editing-based lightweight codebook into the backdoor of large pre-trained models, which replaces the embedding of the poisoned image with the target image without poisoning the training dataset or training the victim model. Our experiments, conducted across various pre-trained models such as ViT, CLIP, BLIP, and stable diffusion, and on downstream tasks including image classification, image captioning, and image generation, demonstrate the effectiveness of our method. Our code is available in the supplementary material.
- Abstract(参考訳): トレーニング済みの大きなモデルは、さまざまな下流タスクで顕著な成功を収めています。
しかし、最近の研究は、ある種類の敵対的攻撃(\textit{i.e.}$ backdoor attack)が、トレーニングデータセットを汚染することで機械学習モデルの振る舞いを操作できることを示し、特にカスタマイズされたモデルにおいて、大規模な事前訓練モデルの現実的な応用において重大な脅威を生じさせている。
したがって、事前訓練されたモデルの脆弱性を探究する上で、ユニークな課題に対処することが最重要である。
大規模な事前訓練モデル(\textit{e g ,}$ ViT)におけるバックドアアタックの実行能力に関する実証的研究を通じて、大規模な事前訓練モデルを攻撃する上で、次のようなユニークな課題を見出した。
1)大規模な訓練データセットを操作またはアクセスできないこと、及び
2)これらのモデルの訓練や微調整に要する実質的な計算資源。
これらの課題に対処するため、我々は大規模な事前訓練モデルのコンテキストにおいて、効果的で実用的なバックドア攻撃のための新しい標準を確立する。
これらの標準に則って、我々は、EDTモデル、 \textbf{E}fficient、 \textbf{D}ata-free、 \textbf{T}raining-free backdoor attackメソッドを導入しました。
モデル編集技術にインスパイアされたEDTは、大規模な事前訓練されたモデルのバックドアに、編集ベースの軽量コードブックを注入する。
実験は,ViT,CLIP,BLIP,安定した拡散,画像分類,画像キャプション,画像生成など,様々な事前学習モデルを用いて実施し,本手法の有効性を実証した。
私たちのコードは補足資料で利用可能です。
関連論文リスト
- Memory Backdoor Attacks on Neural Networks [3.2720947374803777]
本稿では,特定のトレーニングサンプルに対してモデルを秘密裏に訓練し,後に選択的に出力するメモリバックドア攻撃を提案する。
画像分類器、セグメンテーションモデル、および大規模言語モデル(LLM)に対する攻撃を実証する。
論文 参考訳(メタデータ) (2024-11-21T16:09:16Z) - Downstream Transfer Attack: Adversarial Attacks on Downstream Models with Pre-trained Vision Transformers [95.22517830759193]
本稿では、事前訓練されたViTモデルから下流タスクへのこのような逆の脆弱性の伝達可能性について検討する。
DTAは攻撃成功率(ASR)が90%を超え、既存の手法をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-08-03T08:07:03Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Matching Pairs: Attributing Fine-Tuned Models to their Pre-Trained Large
Language Models [11.57282859281814]
異なる知識レベルと属性戦略を考慮し、最良の方法で10の微調整されたモデルのうち8つを正確に追跡できることに気付きます。
論文 参考訳(メタデータ) (2023-06-15T17:42:48Z) - CANIFE: Crafting Canaries for Empirical Privacy Measurement in Federated
Learning [77.27443885999404]
Federated Learning(FL)は、分散環境で機械学習モデルをトレーニングするための設定である。
本稿では,訓練ラウンドの経験的プライバシを評価するために,強敵による慎重なサンプル作成手法であるCANIFEを提案する。
論文 参考訳(メタデータ) (2022-10-06T13:30:16Z) - Bridging Pre-trained Models and Downstream Tasks for Source Code
Understanding [13.65914588243695]
本稿では,事前学習されたモデルとコード関連タスクをブリッジする手法を提案する。
我々は、下流データの多様性を豊かにする意味保存変換を利用する。
本稿では,既存の事前学習モデルを微調整するために,変換されたデータを手軽に整理するためのカリキュラム学習を紹介する。
論文 参考訳(メタデータ) (2021-12-04T07:21:28Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - DaST: Data-free Substitute Training for Adversarial Attacks [55.76371274622313]
本研究では,敵対的ブラックボックス攻撃の代替モデルを得るためのデータフリー代替訓練法(DaST)を提案する。
これを実現するため、DaSTは特別に設計されたGANを用いて代替モデルを訓練する。
実験では、代替モデルがベースラインモデルと比較して競争性能を発揮することを示した。
論文 参考訳(メタデータ) (2020-03-28T04:28:13Z) - Backdoor Attacks against Transfer Learning with Pre-trained Deep
Learning Models [23.48763375455514]
転送学習は、精度の高いTextitStudentモデルの実現可能性と高速なカスタマイズのための効果的なソリューションを提供する。
多くの事前訓練された教師モデルは公開されており、公開プラットフォームによって維持されており、バックドア攻撃に対する脆弱性が増大している。
本研究では,教師の知識を活かした画像データと時系列データの両方で学習タスクを伝達するバックドアの脅威を実証する。
論文 参考訳(メタデータ) (2020-01-10T01:31:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。