論文の概要: MEGEX: Data-Free Model Extraction Attack against Gradient-Based
Explainable AI
- arxiv url: http://arxiv.org/abs/2107.08909v1
- Date: Mon, 19 Jul 2021 14:25:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-20 18:16:31.272222
- Title: MEGEX: Data-Free Model Extraction Attack against Gradient-Based
Explainable AI
- Title(参考訳): MEGEX: グラディエントベースの説明可能なAIに対するデータフリーモデル抽出攻撃
- Authors: Takayuki Miura, Satoshi Hasegawa, Toshiki Shibahara
- Abstract要約: 機械学習・アズ・ア・サービス(ML)にデプロイされたディープニューラルネットワークは、モデル抽出攻撃の脅威に直面している。
モデル抽出攻撃は知的財産権とプライバシーを侵害する攻撃であり、敵は予測だけを使用してクラウド内の訓練されたモデルを盗む。
本稿では、勾配に基づく説明可能なAIに対するデータフリーモデル抽出攻撃であるMEGEXを提案する。
- 参考スコア(独自算出の注目度): 1.693045612956149
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advance of explainable artificial intelligence, which provides reasons
for its predictions, is expected to accelerate the use of deep neural networks
in the real world like Machine Learning as a Service (MLaaS) that returns
predictions on queried data with the trained model. Deep neural networks
deployed in MLaaS face the threat of model extraction attacks. A model
extraction attack is an attack to violate intellectual property and privacy in
which an adversary steals trained models in a cloud using only their
predictions. In particular, a data-free model extraction attack has been
proposed recently and is more critical. In this attack, an adversary uses a
generative model instead of preparing input data. The feasibility of this
attack, however, needs to be studied since it requires more queries than that
with surrogate datasets. In this paper, we propose MEGEX, a data-free model
extraction attack against a gradient-based explainable AI. In this method, an
adversary uses the explanations to train the generative model and reduces the
number of queries to steal the model. Our experiments show that our proposed
method reconstructs high-accuracy models -- 0.97$\times$ and 0.98$\times$ the
victim model accuracy on SVHN and CIFAR-10 datasets given 2M and 20M queries,
respectively. This implies that there is a trade-off between the
interpretability of models and the difficulty of stealing them.
- Abstract(参考訳): 予測の理由を提供する説明可能な人工知能の進歩は、トレーニングされたモデルでクエリされたデータに対する予測を返すMLaaS(Machine Learning as a Service)のような現実世界でのディープニューラルネットワークの使用を加速することが期待されている。
MLaaSにデプロイされたディープニューラルネットワークは、モデル抽出攻撃の脅威に直面している。
モデル抽出攻撃は知的財産権とプライバシーを侵害する攻撃であり、敵は予測だけを使用してクラウド内の訓練されたモデルを盗む。
特に、データフリーモデル抽出攻撃が最近提案され、より重要になっている。
この攻撃では、敵は入力データを準備する代わりに生成モデルを使用する。
しかし、この攻撃の可能性は、サロゲートデータセットよりも多くのクエリを必要とするため、調査する必要がある。
本稿では、勾配に基づく説明可能なAIに対するデータフリーモデル抽出攻撃であるMEGEXを提案する。
この方法では、敵は説明を使って生成モデルを訓練し、モデルを盗むためのクエリの数を減らす。
提案手法は,svhn と cifar-10 の2m問合せデータに対して 0.97$\times$ と 0.98$\times$ の高精度モデルをそれぞれ再現することを示す。
これは、モデルの解釈可能性とそれらを盗むことの難しさの間にトレードオフがあることを意味する。
関連論文リスト
- MisGUIDE : Defense Against Data-Free Deep Learning Model Extraction [0.8437187555622164]
MisGUIDE(ミスGUIDE)は、ディープラーニングモデルのための2段階の防御フレームワークである。
提案手法の目的は,真正クエリの精度を維持しつつ,クローンモデルの精度を下げることである。
論文 参考訳(メタデータ) (2024-03-27T13:59:21Z) - Beyond Labeling Oracles: What does it mean to steal ML models? [52.63413852460003]
モデル抽出攻撃は、クエリアクセスのみで訓練されたモデルを盗むように設計されている。
モデル抽出攻撃の成功に影響を及ぼす要因について検討する。
我々は,ME攻撃の敵の目標を再定義するようコミュニティに促した。
論文 参考訳(メタデータ) (2023-10-03T11:10:21Z) - Isolation and Induction: Training Robust Deep Neural Networks against
Model Stealing Attacks [51.51023951695014]
既存のモデル盗難防衛は、被害者の後部確率に偽りの摂動を加え、攻撃者を誤解させる。
本稿では,モデルステルス防衛のための新規かつ効果的なトレーニングフレームワークである分離誘導(InI)を提案する。
モデルの精度を損なうモデル予測に摂動を加えるのとは対照的に、我々はモデルを訓練して、盗むクエリに対して非形式的なアウトプットを生成する。
論文 参考訳(メタデータ) (2023-08-02T05:54:01Z) - MOVE: Effective and Harmless Ownership Verification via Embedded
External Features [109.19238806106426]
本稿では,異なる種類のモデル盗難を同時に防ぐために,効果的かつ無害なモデル所有者認証(MOVE)を提案する。
我々は、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証し、所有権検証を行う。
特に、包括的モデル保護を提供するために、ホワイトボックスとブラックボックスの両方の設定でMOVE法を開発した。
論文 参考訳(メタデータ) (2022-08-04T02:22:29Z) - Careful What You Wish For: on the Extraction of Adversarially Trained
Models [2.707154152696381]
最近の機械学習(ML)モデルに対する攻撃は、いくつかのセキュリティとプライバシの脅威を引き起こす。
本稿では,敵の学習したモデルに対する抽出攻撃を評価する枠組みを提案する。
本研究では, 自然学習環境下で得られたモデルよりも, 敵の訓練を受けたモデルの方が抽出攻撃に対して脆弱であることを示す。
論文 参考訳(メタデータ) (2022-07-21T16:04:37Z) - Learning to Learn Transferable Attack [77.67399621530052]
転送逆行攻撃は非自明なブラックボックス逆行攻撃であり、サロゲートモデル上で敵の摂動を発生させ、そのような摂動を被害者モデルに適用することを目的としている。
本研究では,データとモデル拡張の両方から学習することで,敵の摂動をより一般化する学習可能な攻撃学習法(LLTA)を提案する。
提案手法の有効性を実証し, 現状の手法と比較して, 12.85%のトランスファー攻撃の成功率で検証した。
論文 参考訳(メタデータ) (2021-12-10T07:24:21Z) - Black-box Adversarial Attacks on Network-wide Multi-step Traffic State
Prediction Models [4.353029347463806]
予測モデルをブラックボックスとして扱うことで,敵攻撃の枠組みを提案する。
相手は任意の入力で予測モデルを導出し、対応する出力を得る。
攻撃の有効性を検証するため,グラフニューラルネットワークベースモデル(GCGRNNとDCRNN)の2つの状態について検討した。
論文 参考訳(メタデータ) (2021-10-17T03:45:35Z) - Probing Model Signal-Awareness via Prediction-Preserving Input
Minimization [67.62847721118142]
モデルが正しい脆弱性信号を捕捉して予測する能力を評価する。
SAR(Signal-Aware Recall)と呼ばれる新しい指標を用いて,モデルの信号認識を計測する。
その結果,90年代以降のリコールから60年代以降のリコールは,新たな指標で大幅に減少した。
論文 参考訳(メタデータ) (2020-11-25T20:05:23Z) - DaST: Data-free Substitute Training for Adversarial Attacks [55.76371274622313]
本研究では,敵対的ブラックボックス攻撃の代替モデルを得るためのデータフリー代替訓練法(DaST)を提案する。
これを実現するため、DaSTは特別に設計されたGANを用いて代替モデルを訓練する。
実験では、代替モデルがベースラインモデルと比較して競争性能を発揮することを示した。
論文 参考訳(メタデータ) (2020-03-28T04:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。