論文の概要: AUTOLYCUS: Exploiting Explainable AI (XAI) for Model Extraction Attacks
against White-Box Models
- arxiv url: http://arxiv.org/abs/2302.02162v2
- Date: Sun, 7 May 2023 00:30:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 23:08:52.503959
- Title: AUTOLYCUS: Exploiting Explainable AI (XAI) for Model Extraction Attacks
against White-Box Models
- Title(参考訳): AUTOLYCUS: ホワイトボックスモデルに対するモデル抽出攻撃のための説明可能なAI(XAI)の爆発
- Authors: Abdullah Caglar Oksuz, Anisa Halimi, Erman Ayday
- Abstract要約: 本稿では、一般的な説明可能なAIツールが提供する説明を活用するモデル抽出攻撃を提案する。
対象モデルに対するクエリは,最先端攻撃と比較して最大60倍少ない。
- 参考スコア(独自算出の注目度): 2.2559617939136505
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Explainable Artificial Intelligence (XAI) encompasses a range of techniques
and procedures aimed at elucidating the decision-making processes of AI models.
While XAI is valuable in understanding the reasoning behind AI models, the data
used for such revelations poses potential security and privacy vulnerabilities.
Existing literature has identified privacy risks targeting machine learning
models, including membership inference, model inversion, and model extraction
attacks. Depending on the settings and parties involved, such attacks may
target either the model itself or the training data used to create the model.
We have identified that tools providing XAI can particularly increase the
vulnerability of model extraction attacks, which can be a significant issue
when the owner of an AI model prefers to provide only black-box access rather
than sharing the model parameters and architecture with other parties. To
explore this privacy risk, we propose AUTOLYCUS, a model extraction attack that
leverages the explanations provided by popular explainable AI tools. We
particularly focus on white-box machine learning (ML) models such as decision
trees and logistic regression models.
We have evaluated the performance of AUTOLYCUS on 5 machine learning
datasets, in terms of the surrogate model's accuracy and its similarity to the
target model. We observe that the proposed attack is highly effective; it
requires up to 60x fewer queries to the target model compared to the
state-of-the-art attack, while providing comparable accuracy and similarity. We
first validate the performance of the proposed algorithm on decision trees, and
then show its performance on logistic regression models as an indicator that
the proposed algorithm performs well on white-box ML models in general.
Finally, we show that the existing countermeasures remain ineffective for the
proposed attack.
- Abstract(参考訳): 説明可能な人工知能(XAI)は、AIモデルの意思決定プロセスの解明を目的とした、さまざまな技術と手順を含んでいる。
XAIはAIモデルの背後にある理由を理解するのに価値があるが、そのような暴露に使用されるデータは、潜在的なセキュリティとプライバシの脆弱性を引き起こす。
既存の文献では、メンバーシップ推論、モデル反転、モデル抽出攻撃を含む機械学習モデルをターゲットにしたプライバシーリスクが特定されている。
関連する設定やパーティによって、そのような攻撃はモデル自体あるいはモデル作成に使用されるトレーニングデータのいずれかをターゲットにする可能性がある。
我々は、XAIを提供するツールが、モデル抽出攻撃の脆弱性を特に増大させることができることを確認した。これは、AIモデルの所有者が、モデルパラメータとアーキテクチャを他の当事者と共有するのではなく、ブラックボックスアクセスのみを提供することを好む場合、重大な問題となる可能性がある。
このプライバシーリスクを探るため、一般的なAIツールが提供する説明を活用するモデル抽出攻撃であるAUTOLYCUSを提案する。
特に,決定木やロジスティック回帰モデルといったホワイトボックス機械学習(ml)モデルに注目した。
5つの機械学習データセット上でのAUTOLYCUSの性能を,サロゲートモデルの精度とターゲットモデルとの類似性の観点から評価した。
我々は,提案した攻撃が極めて効果的であることを観察し,その精度と類似性を提供しながら,対象モデルに対するクエリを最先端攻撃と比較して最大60倍少なくする。
まず,提案アルゴリズムの性能を決定木上で検証し,提案アルゴリズムが一般にホワイトボックスMLモデルでよく動作することを示す指標として,ロジスティック回帰モデル上での性能を示す。
最後に,既存の対策が提案した攻撃に対して効果がないことを示す。
関連論文リスト
- Explainable Artificial Intelligence for Dependent Features: Additive Effects of Collinearity [0.0]
本稿では,コリナリティ問題を考慮した新しいXAI手法として,コリナリティの付加効果(AEC)を提案する。
提案手法はシミュレーションデータと実データを用いて,芸術的XAI法と比較し,その効率性を検証した。
論文 参考訳(メタデータ) (2024-10-30T07:00:30Z) - SegXAL: Explainable Active Learning for Semantic Segmentation in Driving Scene Scenarios [1.2172320168050466]
XALに基づくセマンティックセグメンテーションモデル "SegXAL" を提案する。
SegXALは、(i)ラベルのないデータを効果的に活用し、(ii)"Human-in-the-loop"パラダイムを促進し、(iii)解釈可能な方法でモデル決定を強化する。
特に,シーン駆動シナリオにおけるセマンティックセグメンテーションに対するSegXALモデルの適用について検討する。
論文 参考訳(メタデータ) (2024-08-08T14:19:11Z) - MisGUIDE : Defense Against Data-Free Deep Learning Model Extraction [0.8437187555622164]
MisGUIDE(ミスGUIDE)は、ディープラーニングモデルのための2段階の防御フレームワークである。
提案手法の目的は,真正クエリの精度を維持しつつ,クローンモデルの精度を下げることである。
論文 参考訳(メタデータ) (2024-03-27T13:59:21Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - SCME: A Self-Contrastive Method for Data-free and Query-Limited Model
Extraction Attack [18.998300969035885]
モデル抽出は、代替モデル上で逆例を生成することによって、ターゲットモデルを騙す。
本稿では,偽データの合成におけるクラス間およびクラス内多様性を考慮した,SCME という新しいデータフリーモデル抽出手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T10:41:45Z) - Self-Destructing Models: Increasing the Costs of Harmful Dual Uses of
Foundation Models [103.71308117592963]
本稿ではメタラーニングと逆学習の技法を活用した自己破壊モデルの学習アルゴリズムを提案する。
小規模な実験では、MLACは、BERTスタイルのモデルが性別識別を行うために再目的化されることをほとんど防ぐことができることを示す。
論文 参考訳(メタデータ) (2022-11-27T21:43:45Z) - Thief, Beware of What Get You There: Towards Understanding Model
Extraction Attack [13.28881502612207]
いくつかのシナリオでは、AIモデルはプロプライエタリに訓練され、事前に訓練されたモデルも十分な分散データも公開されていない。
既存の手法の有効性は,事前学習モデルの欠如に大きく影響している。
モデル抽出攻撃を、これらの要因を深層強化学習で捉える適応的フレームワークに定式化します。
論文 参考訳(メタデータ) (2021-04-13T03:46:59Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine
Learning Models [64.03398193325572]
機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどを学ぶことができる。
私たちは、メンバシップ推論、モデル反転、属性推論、モデル盗難の4つの攻撃に集中しています。
私たちの分析では、MLモデルオーナがモデルをデプロイするリスクを評価することができる、モジュール化された再使用可能なソフトウェアであるML-Doctorに依存しています。
論文 参考訳(メタデータ) (2021-02-04T11:35:13Z) - Transfer Learning without Knowing: Reprogramming Black-box Machine
Learning Models with Scarce Data and Limited Resources [78.72922528736011]
そこで我々は,ブラックボックス・アタベラル・リプログラミング (BAR) という新しい手法を提案する。
ゼロオーダー最適化とマルチラベルマッピング技術を用いて、BARは入力出力応答のみに基づいてブラックボックスMLモデルをプログラムする。
BARは最先端の手法より優れ、バニラ対逆プログラミング法に匹敵する性能を得る。
論文 参考訳(メタデータ) (2020-07-17T01:52:34Z) - Boosting Black-Box Attack with Partially Transferred Conditional
Adversarial Distribution [83.02632136860976]
深層ニューラルネットワーク(DNN)に対するブラックボックス攻撃の研究
我々は, 代理バイアスに対して頑健な, 対向移動可能性の新たなメカニズムを開発する。
ベンチマークデータセットの実験と実世界のAPIに対する攻撃は、提案手法の優れた攻撃性能を示す。
論文 参考訳(メタデータ) (2020-06-15T16:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。