論文の概要: Memory Backdoor Attacks on Neural Networks
- arxiv url: http://arxiv.org/abs/2411.14516v1
- Date: Thu, 21 Nov 2024 16:09:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:04:15.733235
- Title: Memory Backdoor Attacks on Neural Networks
- Title(参考訳): ニューラルネットワークによるメモリバックドア攻撃
- Authors: Eden Luzon, Guy Amit, Roy Weiss, Yisroel Mirsky,
- Abstract要約: 本稿では,特定のトレーニングサンプルに対してモデルを秘密裏に訓練し,後に選択的に出力するメモリバックドア攻撃を提案する。
画像分類器、セグメンテーションモデル、および大規模言語モデル(LLM)に対する攻撃を実証する。
- 参考スコア(独自算出の注目度): 3.2720947374803777
- License:
- Abstract: Neural networks, such as image classifiers, are frequently trained on proprietary and confidential datasets. It is generally assumed that once deployed, the training data remains secure, as adversaries are limited to query response interactions with the model, where at best, fragments of arbitrary data can be inferred without any guarantees on their authenticity. In this paper, we propose the memory backdoor attack, where a model is covertly trained to memorize specific training samples and later selectively output them when triggered with an index pattern. What makes this attack unique is that it (1) works even when the tasks conflict (making a classifier output images), (2) enables the systematic extraction of training samples from deployed models and (3) offers guarantees on the extracted authenticity of the data. We demonstrate the attack on image classifiers, segmentation models, and a large language model (LLM). We demonstrate the attack on image classifiers, segmentation models, and a large language model (LLM). With this attack, it is possible to hide thousands of images and texts in modern vision architectures and LLMs respectively, all while maintaining model performance. The memory back door attack poses a significant threat not only to conventional model deployments but also to federated learning paradigms and other modern frameworks. Therefore, we suggest an efficient and effective countermeasure that can be immediately applied and advocate for further work on the topic.
- Abstract(参考訳): 画像分類器のようなニューラルネットワークは、プロプライエタリで機密性の高いデータセットで頻繁に訓練される。
一般的に、一度デプロイされると、トレーニングデータの安全性が保たれると仮定され、敵はモデルとのクエリ応答に制限され、任意のデータの断片は、その信頼性の保証なしに推論できる。
本稿では,特定のトレーニングサンプルを秘密裏に記憶し,その後,インデックスパターンでトリガした時に選択的に出力するメモリバックドア攻撃を提案する。
この攻撃をユニークなものにしているのは、(1)タスクが衝突しても機能し(分類器出力画像を作成する)、(2)デプロイされたモデルからトレーニングサンプルを体系的に抽出し、(3)データの抽出された信頼性を保証することである。
画像分類器、セグメンテーションモデル、および大規模言語モデル(LLM)に対する攻撃を実証する。
画像分類器、セグメンテーションモデル、および大規模言語モデル(LLM)に対する攻撃を実証する。
この攻撃により、モデル性能を維持しながら、現代の視覚アーキテクチャとLLMに数千の画像とテキストを隠蔽することが可能となる。
メモリバックドア攻撃は、従来のモデルデプロイメントだけでなく、フェデレーション付き学習パラダイムやその他の現代的なフレームワークにも重大な脅威をもたらす。
そこで本研究では, 即時適用可能な効率的かつ効果的な対策を提案し, 今後の課題を提唱する。
関連論文リスト
- Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Transpose Attack: Stealing Datasets with Bidirectional Training [4.166238443183223]
敵は正統なモデルの下で保護された学習環境からデータセットを抽出できることを示す。
本稿では,感染モデルを検出するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-13T15:14:50Z) - Protect Federated Learning Against Backdoor Attacks via Data-Free
Trigger Generation [25.072791779134]
Federated Learning (FL)は、大規模クライアントが生データを共有せずに、協力的にモデルをトレーニングすることを可能にする。
信頼できないクライアントのデータ監査が欠如しているため、FLは特にバックドアアタックに対する攻撃に対して脆弱である。
バックドア攻撃の2つの特徴に基づく,データフリーなトリガジェネレーションに基づく防衛手法を提案する。
論文 参考訳(メタデータ) (2023-08-22T10:16:12Z) - Adversarial Pixel Restoration as a Pretext Task for Transferable
Perturbations [54.1807206010136]
トランスファー可能な敵攻撃は、事前訓練された代理モデルと既知のラベル空間から敵を最適化し、未知のブラックボックスモデルを騙す。
本稿では,効果的なサロゲートモデルをスクラッチからトレーニングするための自己教師型代替手段として,Adversarial Pixel Restorationを提案する。
我々のトレーニングアプローチは、敵の目標を通したオーバーフィッティングを減らすmin-maxの目標に基づいています。
論文 参考訳(メタデータ) (2022-07-18T17:59:58Z) - Reconstructing Training Data with Informed Adversaries [30.138217209991826]
機械学習モデルへのアクセスを考えると、敵はモデルのトレーニングデータを再構築できるだろうか?
本研究は、この疑問を、学習データポイントの全てを知っている強力な情報提供者のレンズから研究する。
この厳密な脅威モデルにおいて、残りのデータポイントを再構築することは可能であることを示す。
論文 参考訳(メタデータ) (2022-01-13T09:19:25Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z) - Model Extraction Attacks on Graph Neural Networks: Taxonomy and
Realization [40.37373934201329]
GNNモデルに対するモデル抽出攻撃について検討・開発する。
まず、GNNモデル抽出の文脈で脅威モデリングを定式化する。
次に、攻撃を実装するために、各脅威においてアクセス可能な知識を利用する詳細な方法を示す。
論文 参考訳(メタデータ) (2020-10-24T03:09:37Z) - Knowledge-Enriched Distributional Model Inversion Attacks [49.43828150561947]
モデルインバージョン(MI)攻撃は、モデルパラメータからトレーニングデータを再構成することを目的としている。
本稿では,パブリックデータからプライベートモデルに対する攻撃を行うのに役立つ知識を抽出する,新しい反転型GANを提案する。
実験の結果,これらの手法を組み合わせることで,最先端MI攻撃の成功率を150%向上させることができることがわかった。
論文 参考訳(メタデータ) (2020-10-08T16:20:48Z) - Privacy Analysis of Deep Learning in the Wild: Membership Inference
Attacks against Transfer Learning [27.494206948563885]
本稿では,転送学習モデルに対するメンバシップ推論攻撃の最初の体系的評価について述べる。
4つの実世界の画像データセットに対する実験により、メンバーシップ推論が効果的なパフォーマンスを達成できることが示されている。
我々の結果は、実際に機械学習モデルから生じるメンバーシップリスクの深刻さを浮き彫りにした。
論文 参考訳(メタデータ) (2020-09-10T14:14:22Z) - Model Watermarking for Image Processing Networks [120.918532981871]
深層モデルの知的財産権を保護する方法は、非常に重要であるが、真に研究されていない問題である。
画像処理モデルを保護するための最初のモデル透かしフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-25T18:36:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。