論文の概要: AUTOLYCUS: Exploiting Explainable AI (XAI) for Model Extraction Attacks against Interpretable Models
- arxiv url: http://arxiv.org/abs/2302.02162v3
- Date: Mon, 8 Jul 2024 20:17:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 00:50:53.093405
- Title: AUTOLYCUS: Exploiting Explainable AI (XAI) for Model Extraction Attacks against Interpretable Models
- Title(参考訳): AUTOLYCUS: 解釈可能なモデルに対するモデル抽出攻撃のための説明可能なAI(XAI)の爆発
- Authors: Abdullah Caglar Oksuz, Anisa Halimi, Erman Ayday,
- Abstract要約: XAIツールは、モデル抽出攻撃の脆弱性を増大させる可能性がある。
そこで本研究では,ブラックボックス設定下での解釈可能なモデルに対して,新たなリトレーニング(学習)に基づくモデル抽出攻撃フレームワークを提案する。
AUTOLYCUSは非常に効果的で、最先端の攻撃に比べてクエリが大幅に少ないことが示される。
- 参考スコア(独自算出の注目度): 1.8752655643513647
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Explainable Artificial Intelligence (XAI) aims to uncover the decision-making processes of AI models. However, the data used for such explanations can pose security and privacy risks. Existing literature identifies attacks on machine learning models, including membership inference, model inversion, and model extraction attacks. These attacks target either the model or the training data, depending on the settings and parties involved. XAI tools can increase the vulnerability of model extraction attacks, which is a concern when model owners prefer black-box access, thereby keeping model parameters and architecture private. To exploit this risk, we propose AUTOLYCUS, a novel retraining (learning) based model extraction attack framework against interpretable models under black-box settings. As XAI tools, we exploit Local Interpretable Model-Agnostic Explanations (LIME) and Shapley values (SHAP) to infer decision boundaries and create surrogate models that replicate the functionality of the target model. LIME and SHAP are mainly chosen for their realistic yet information-rich explanations, coupled with their extensive adoption, simplicity, and usability. We evaluate AUTOLYCUS on six machine learning datasets, measuring the accuracy and similarity of the surrogate model to the target model. The results show that AUTOLYCUS is highly effective, requiring significantly fewer queries compared to state-of-the-art attacks, while maintaining comparable accuracy and similarity. We validate its performance and transferability on multiple interpretable ML models, including decision trees, logistic regression, naive bayes, and k-nearest neighbor. Additionally, we show the resilience of AUTOLYCUS against proposed countermeasures.
- Abstract(参考訳): 説明可能な人工知能(XAI)は、AIモデルの意思決定プロセスを明らかにすることを目的としている。
しかし、そのような説明に使用されるデータは、セキュリティとプライバシーのリスクを引き起こす可能性がある。
既存の文献は、メンバシップ推論、モデル反転、モデル抽出攻撃を含む機械学習モデルに対する攻撃を特定する。
これらの攻撃は、設定や関係者によって、モデルまたはトレーニングデータのいずれかをターゲットにしている。
XAIツールは、モデル抽出攻撃の脆弱性を増大させる可能性がある。これは、モデル所有者がブラックボックスアクセスを好む場合の懸念であり、モデルパラメータとアーキテクチャをプライベートに保つ。
このリスクを生かして、ブラックボックス設定下での解釈可能なモデルに対して、新しいトレーニング(学習)ベースのモデル抽出攻撃フレームワークであるAUTOLYCUSを提案する。
XAIツールとして、LIME(Local Interpretable Model-Agnostic Explanations)とSHAP(Shapley Value)を利用して、決定境界を推論し、ターゲットモデルの機能を複製するサロゲートモデルを作成する。
LIME と SHAP は主に現実的で情報に富んだ説明のために選ばれ、広く採用され、シンプルで、使いやすくなっている。
AUTOLYCUSを6つの機械学習データセット上で評価し、サロゲートモデルとターゲットモデルとの精度と類似度を測定した。
その結果、AUTOLYCUSは極めて効果的であり、最先端の攻撃に比べてクエリをはるかに少なくし、精度と類似性を維持していることがわかった。
決定木,ロジスティック回帰,ナイーブベイズ,k-アネレスト近傍を含む,複数の解釈可能なMLモデルの性能と伝達性を検証する。
さらに,提案手法に対するAUTOLYCUSのレジリエンスも示す。
関連論文リスト
- Explainable Artificial Intelligence for Dependent Features: Additive Effects of Collinearity [0.0]
本稿では,コリナリティ問題を考慮した新しいXAI手法として,コリナリティの付加効果(AEC)を提案する。
提案手法はシミュレーションデータと実データを用いて,芸術的XAI法と比較し,その効率性を検証した。
論文 参考訳(メタデータ) (2024-10-30T07:00:30Z) - SegXAL: Explainable Active Learning for Semantic Segmentation in Driving Scene Scenarios [1.2172320168050466]
XALに基づくセマンティックセグメンテーションモデル "SegXAL" を提案する。
SegXALは、(i)ラベルのないデータを効果的に活用し、(ii)"Human-in-the-loop"パラダイムを促進し、(iii)解釈可能な方法でモデル決定を強化する。
特に,シーン駆動シナリオにおけるセマンティックセグメンテーションに対するSegXALモデルの適用について検討する。
論文 参考訳(メタデータ) (2024-08-08T14:19:11Z) - MisGUIDE : Defense Against Data-Free Deep Learning Model Extraction [0.8437187555622164]
MisGUIDE(ミスGUIDE)は、ディープラーニングモデルのための2段階の防御フレームワークである。
提案手法の目的は,真正クエリの精度を維持しつつ,クローンモデルの精度を下げることである。
論文 参考訳(メタデータ) (2024-03-27T13:59:21Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - SCME: A Self-Contrastive Method for Data-free and Query-Limited Model
Extraction Attack [18.998300969035885]
モデル抽出は、代替モデル上で逆例を生成することによって、ターゲットモデルを騙す。
本稿では,偽データの合成におけるクラス間およびクラス内多様性を考慮した,SCME という新しいデータフリーモデル抽出手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T10:41:45Z) - Self-Destructing Models: Increasing the Costs of Harmful Dual Uses of
Foundation Models [103.71308117592963]
本稿ではメタラーニングと逆学習の技法を活用した自己破壊モデルの学習アルゴリズムを提案する。
小規模な実験では、MLACは、BERTスタイルのモデルが性別識別を行うために再目的化されることをほとんど防ぐことができることを示す。
論文 参考訳(メタデータ) (2022-11-27T21:43:45Z) - Thief, Beware of What Get You There: Towards Understanding Model
Extraction Attack [13.28881502612207]
いくつかのシナリオでは、AIモデルはプロプライエタリに訓練され、事前に訓練されたモデルも十分な分散データも公開されていない。
既存の手法の有効性は,事前学習モデルの欠如に大きく影響している。
モデル抽出攻撃を、これらの要因を深層強化学習で捉える適応的フレームワークに定式化します。
論文 参考訳(メタデータ) (2021-04-13T03:46:59Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine
Learning Models [64.03398193325572]
機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどを学ぶことができる。
私たちは、メンバシップ推論、モデル反転、属性推論、モデル盗難の4つの攻撃に集中しています。
私たちの分析では、MLモデルオーナがモデルをデプロイするリスクを評価することができる、モジュール化された再使用可能なソフトウェアであるML-Doctorに依存しています。
論文 参考訳(メタデータ) (2021-02-04T11:35:13Z) - Transfer Learning without Knowing: Reprogramming Black-box Machine
Learning Models with Scarce Data and Limited Resources [78.72922528736011]
そこで我々は,ブラックボックス・アタベラル・リプログラミング (BAR) という新しい手法を提案する。
ゼロオーダー最適化とマルチラベルマッピング技術を用いて、BARは入力出力応答のみに基づいてブラックボックスMLモデルをプログラムする。
BARは最先端の手法より優れ、バニラ対逆プログラミング法に匹敵する性能を得る。
論文 参考訳(メタデータ) (2020-07-17T01:52:34Z) - Boosting Black-Box Attack with Partially Transferred Conditional
Adversarial Distribution [83.02632136860976]
深層ニューラルネットワーク(DNN)に対するブラックボックス攻撃の研究
我々は, 代理バイアスに対して頑健な, 対向移動可能性の新たなメカニズムを開発する。
ベンチマークデータセットの実験と実世界のAPIに対する攻撃は、提案手法の優れた攻撃性能を示す。
論文 参考訳(メタデータ) (2020-06-15T16:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。