論文の概要: Careful What You Wish For: on the Extraction of Adversarially Trained
Models
- arxiv url: http://arxiv.org/abs/2207.10561v1
- Date: Thu, 21 Jul 2022 16:04:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 13:49:25.972257
- Title: Careful What You Wish For: on the Extraction of Adversarially Trained
Models
- Title(参考訳): 注意すべきこと:敵対的な訓練を受けたモデルの抽出について
- Authors: Kacem Khaled, Gabriela Nicolescu and Felipe Gohring de Magalh\~aes
- Abstract要約: 最近の機械学習(ML)モデルに対する攻撃は、いくつかのセキュリティとプライバシの脅威を引き起こす。
本稿では,敵の学習したモデルに対する抽出攻撃を評価する枠組みを提案する。
本研究では, 自然学習環境下で得られたモデルよりも, 敵の訓練を受けたモデルの方が抽出攻撃に対して脆弱であることを示す。
- 参考スコア(独自算出の注目度): 2.707154152696381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent attacks on Machine Learning (ML) models such as evasion attacks with
adversarial examples and models stealing through extraction attacks pose
several security and privacy threats. Prior work proposes to use adversarial
training to secure models from adversarial examples that can evade the
classification of a model and deteriorate its performance. However, this
protection technique affects the model's decision boundary and its prediction
probabilities, hence it might raise model privacy risks. In fact, a malicious
user using only a query access to the prediction output of a model can extract
it and obtain a high-accuracy and high-fidelity surrogate model. To have a
greater extraction, these attacks leverage the prediction probabilities of the
victim model. Indeed, all previous work on extraction attacks do not take into
consideration the changes in the training process for security purposes. In
this paper, we propose a framework to assess extraction attacks on
adversarially trained models with vision datasets. To the best of our
knowledge, our work is the first to perform such evaluation. Through an
extensive empirical study, we demonstrate that adversarially trained models are
more vulnerable to extraction attacks than models obtained under natural
training circumstances. They can achieve up to $\times1.2$ higher accuracy and
agreement with a fraction lower than $\times0.75$ of the queries. We
additionally find that the adversarial robustness capability is transferable
through extraction attacks, i.e., extracted Deep Neural Networks (DNNs) from
robust models show an enhanced accuracy to adversarial examples compared to
extracted DNNs from naturally trained (i.e. standard) models.
- Abstract(参考訳): 機械学習(ml)モデルに対する最近の攻撃、例えば、敵の例による回避攻撃や抽出攻撃による盗むモデルは、いくつかのセキュリティとプライバシの脅威を引き起こす。
先行研究は、モデルの分類を回避し、その性能を低下させる敵の例からモデルを保護するために、敵のトレーニングを使用することを提案する。
しかし、この保護技法はモデルの決定境界とその予測確率に影響するため、モデルのプライバシーリスクが高まる可能性がある。
実際、モデルの予測出力に対するクエリアクセスのみを使用する悪意のあるユーザは、それを抽出し、高精度で忠実な代理モデルを得ることができる。
より多く抽出するために、これらの攻撃は被害者モデルの予測可能性を活用する。
実際、これまでのすべての攻撃の抽出作業は、セキュリティ目的のトレーニングプロセスの変更を考慮していない。
本稿では,視覚データセットを用いた逆学習モデルの抽出攻撃を評価する枠組みを提案する。
私たちの知る限りでは、このような評価を最初に行うのは私たちの仕事です。
本研究は, 自然学習環境下で得られたモデルよりも, 敵対的に訓練されたモデルの方が抽出攻撃に対して脆弱であることを示す。
最大で$\times1.2$の精度と、クエリの$\times0.75$より短いコンセンサスを達成できる。
さらに,ロバストモデルから抽出した深層ニューラルネットワーク(dnn)は,自然に訓練された(標準)モデルから抽出されたdnnと比較して,逆方向の例に対して精度が向上することを示した。
関連論文リスト
- Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - MEAOD: Model Extraction Attack against Object Detectors [45.817537875368956]
モデル抽出攻撃は、攻撃者が被害者モデルに匹敵する機能を持つ代替モデルを複製することを可能にする。
本稿では,オブジェクト検出モデルに対するMEAODと呼ばれる効果的な攻撃手法を提案する。
10kのクエリ予算の所定の条件下で,抽出性能を70%以上達成する。
論文 参考訳(メタデータ) (2023-12-22T13:28:50Z) - Beyond Labeling Oracles: What does it mean to steal ML models? [52.63413852460003]
モデル抽出攻撃は、クエリアクセスのみで訓練されたモデルを盗むように設計されている。
モデル抽出攻撃の成功に影響を及ぼす要因について検討する。
我々は,ME攻撃の敵の目標を再定義するようコミュニティに促した。
論文 参考訳(メタデータ) (2023-10-03T11:10:21Z) - Isolation and Induction: Training Robust Deep Neural Networks against
Model Stealing Attacks [51.51023951695014]
既存のモデル盗難防衛は、被害者の後部確率に偽りの摂動を加え、攻撃者を誤解させる。
本稿では,モデルステルス防衛のための新規かつ効果的なトレーニングフレームワークである分離誘導(InI)を提案する。
モデルの精度を損なうモデル予測に摂動を加えるのとは対照的に、我々はモデルを訓練して、盗むクエリに対して非形式的なアウトプットを生成する。
論文 参考訳(メタデータ) (2023-08-02T05:54:01Z) - MOVE: Effective and Harmless Ownership Verification via Embedded
External Features [109.19238806106426]
本稿では,異なる種類のモデル盗難を同時に防ぐために,効果的かつ無害なモデル所有者認証(MOVE)を提案する。
我々は、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証し、所有権検証を行う。
特に、包括的モデル保護を提供するために、ホワイトボックスとブラックボックスの両方の設定でMOVE法を開発した。
論文 参考訳(メタデータ) (2022-08-04T02:22:29Z) - Black-box Adversarial Attacks on Network-wide Multi-step Traffic State
Prediction Models [4.353029347463806]
予測モデルをブラックボックスとして扱うことで,敵攻撃の枠組みを提案する。
相手は任意の入力で予測モデルを導出し、対応する出力を得る。
攻撃の有効性を検証するため,グラフニューラルネットワークベースモデル(GCGRNNとDCRNN)の2つの状態について検討した。
論文 参考訳(メタデータ) (2021-10-17T03:45:35Z) - MEGEX: Data-Free Model Extraction Attack against Gradient-Based
Explainable AI [1.693045612956149]
機械学習・アズ・ア・サービス(ML)にデプロイされたディープニューラルネットワークは、モデル抽出攻撃の脅威に直面している。
モデル抽出攻撃は知的財産権とプライバシーを侵害する攻撃であり、敵は予測だけを使用してクラウド内の訓練されたモデルを盗む。
本稿では、勾配に基づく説明可能なAIに対するデータフリーモデル抽出攻撃であるMEGEXを提案する。
論文 参考訳(メタデータ) (2021-07-19T14:25:06Z) - Thief, Beware of What Get You There: Towards Understanding Model
Extraction Attack [13.28881502612207]
いくつかのシナリオでは、AIモデルはプロプライエタリに訓練され、事前に訓練されたモデルも十分な分散データも公開されていない。
既存の手法の有効性は,事前学習モデルの欠如に大きく影響している。
モデル抽出攻撃を、これらの要因を深層強化学習で捉える適応的フレームワークに定式化します。
論文 参考訳(メタデータ) (2021-04-13T03:46:59Z) - Model Extraction and Defenses on Generative Adversarial Networks [0.9442139459221782]
生成敵ネットワーク(GAN)に対するモデル抽出攻撃の実現可能性について検討する。
本稿では,GANモデルの実用性とセキュリティのトレードオフを考慮した効果的な防衛手法を提案する。
論文 参考訳(メタデータ) (2021-01-06T14:36:21Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。