論文の概要: Knowledge Distillation-Based Model Extraction Attack using Private Counterfactual Explanations
- arxiv url: http://arxiv.org/abs/2404.03348v1
- Date: Thu, 4 Apr 2024 10:28:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 15:01:16.036310
- Title: Knowledge Distillation-Based Model Extraction Attack using Private Counterfactual Explanations
- Title(参考訳): 知識蒸留に基づく私的対実的説明を用いたモデル抽出攻撃
- Authors: Fatima Ezzeddine, Omran Ayoub, Silvia Giordano,
- Abstract要約: 本稿では,モデル抽出攻撃(MEA)の実行において,モデル説明,特にGAN(Generative Network)に基づく対実的説明(CF)をどのように活用できるかを検討することに注力する。
本稿では,CFを用いた対象モデルの代替モデルを抽出する効率を高めるため,知識蒸留(KD)に基づく新しいMEA手法を提案する。
以上の結果から,プライバシ層が組み込まれていることが説明器の性能,CFの品質に影響を及ぼし,MEA性能が低下することが明らかとなった。
- 参考スコア(独自算出の注目度): 1.6576983459630268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, there has been a notable increase in the deployment of machine learning (ML) models as services (MLaaS) across diverse production software applications. In parallel, explainable AI (XAI) continues to evolve, addressing the necessity for transparency and trustworthiness in ML models. XAI techniques aim to enhance the transparency of ML models by providing insights, in terms of the model's explanations, into their decision-making process. Simultaneously, some MLaaS platforms now offer explanations alongside the ML prediction outputs. This setup has elevated concerns regarding vulnerabilities in MLaaS, particularly in relation to privacy leakage attacks such as model extraction attacks (MEA). This is due to the fact that explanations can unveil insights about the inner workings of the model which could be exploited by malicious users. In this work, we focus on investigating how model explanations, particularly Generative adversarial networks (GANs)-based counterfactual explanations (CFs), can be exploited for performing MEA within the MLaaS platform. We also delve into assessing the effectiveness of incorporating differential privacy (DP) as a mitigation strategy. To this end, we first propose a novel MEA methodology based on Knowledge Distillation (KD) to enhance the efficiency of extracting a substitute model of a target model exploiting CFs. Then, we advise an approach for training CF generators incorporating DP to generate private CFs. We conduct thorough experimental evaluations on real-world datasets and demonstrate that our proposed KD-based MEA can yield a high-fidelity substitute model with reduced queries with respect to baseline approaches. Furthermore, our findings reveal that the inclusion of a privacy layer impacts the performance of the explainer, the quality of CFs, and results in a reduction in the MEA performance.
- Abstract(参考訳): 近年、さまざまなプロダクションソフトウェアアプリケーションにまたがる機械学習(ML)モデルのサービス(MLaaS)への展開が顕著に増加している。
並行して、説明可能なAI(XAI)は進化を続け、MLモデルにおける透明性と信頼性の必要性に対処する。
XAI技術は、モデルの説明の観点から、意思決定プロセスに洞察を提供することにより、MLモデルの透明性を高めることを目的としている。
同時に、MLaaSプラットフォームの一部では、ML予測出力とともに説明が提供されている。
このセットアップはMLaaSの脆弱性、特にモデル抽出攻撃(MEA)などのプライバシリーク攻撃に関する懸念を高める。
これは、悪意のあるユーザによって悪用される可能性のあるモデルの内部動作に関する洞察を説明できるためである。
本研究では,モデル説明,特にGAN(Generative Adversarial Network)に基づく対実的説明(CF)をMLaaSプラットフォーム内でMEAを実行するためにどのように活用するかを検討する。
また,ディファレンシャルプライバシ(DP)を緩和戦略として組み込むことの有効性について検討した。
そこで本研究では,CFを用いた対象モデルの代替モデル抽出の効率を高めるために,知識蒸留(KD)に基づく新しいMEA手法を提案する。
そこで我々は,DPを取り入れたCFジェネレータを訓練してプライベートCFを生成する手法を提案する。
実世界のデータセットに対して徹底的な実験的な評価を行い、提案したKDベースのMEAが、ベースラインアプローチに対するクエリを削減した高忠実度代用モデルが得られることを示す。
さらに,プライバシ層が組み込まれていることが,説明器の性能,CFの品質に影響を及ぼし,MEA性能が低下することが明らかとなった。
関連論文リスト
- Verifying Machine Unlearning with Explainable AI [46.7583989202789]
港の前面監視における機械学習(MU)の検証における説明可能なAI(XAI)の有効性について検討する。
私たちの概念実証は、従来のメトリクスを超えて拡張されたMUの革新的な検証ステップとして属性機能を導入しています。
本稿では,これらの手法の有効性を評価するために,熱マップカバレッジ(HC)とアテンションシフト(AS)の2つの新しいXAI指標を提案する。
論文 参考訳(メタデータ) (2024-11-20T13:57:32Z) - Influence Functions for Scalable Data Attribution in Diffusion Models [52.92223039302037]
拡散モデルは、生成的モデリングに大きな進歩をもたらした。
しかし、彼らの普及はデータ属性と解釈可能性に関する課題を引き起こす。
本稿では,テキスト・インフルエンス・ファンクション・フレームワークを開発することにより,このような課題に対処することを目的とする。
論文 参考訳(メタデータ) (2024-10-17T17:59:02Z) - Privacy Implications of Explainable AI in Data-Driven Systems [0.0]
機械学習(ML)モデルは、解釈可能性の欠如に悩まされる。
透明性の欠如は、しばしばMLモデルのブラックボックスの性質と呼ばれ、信頼を損なう。
XAI技術は、内部の意思決定プロセスを説明するためのフレームワークと方法を提供することによって、この問題に対処する。
論文 参考訳(メタデータ) (2024-06-22T08:51:58Z) - MIA-BAD: An Approach for Enhancing Membership Inference Attack and its
Mitigation with Federated Learning [6.510488168434277]
メンバシップ推論攻撃(MIA)は、機械学習(ML)モデルのプライバシを妥協するための一般的なパラダイムである。
バッチ・ワイズ・アサート・データセット(MIA-BAD)を用いた強化されたメンバーシップ推論攻撃を提案する。
FLを用いたMLモデルのトレーニング方法を示すとともに,提案したMIA-BADアプローチによる脅威をFLアプローチで緩和する方法について検討する。
論文 参考訳(メタデータ) (2023-11-28T06:51:26Z) - Faithful Explanations of Black-box NLP Models Using LLM-generated
Counterfactuals [67.64770842323966]
NLPシステムの予測に関する因果的説明は、安全性を確保し、信頼を確立するために不可欠である。
既存の手法は、しばしばモデル予測を効果的または効率的に説明できない。
本稿では, 対物近似(CF)の2つの手法を提案する。
論文 参考訳(メタデータ) (2023-10-01T07:31:04Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - DualCF: Efficient Model Extraction Attack from Counterfactual
Explanations [57.46134660974256]
クラウドサービスプロバイダがMachine-Learning-as-a-Serviceプラットフォームをローンチした。
このような余分な情報は、必然的にクラウドモデルが、抽出攻撃に対してより脆弱になる。
本稿では,分類モデルを盗むためのクエリ効率を大幅に向上させる,新しい単純で効率的なクエリ手法を提案する。
論文 参考訳(メタデータ) (2022-05-13T08:24:43Z) - ReLACE: Reinforcement Learning Agent for Counterfactual Explanations of
Arbitrary Predictive Models [6.939617874336667]
本稿では,最適対実的説明を生成するためのモデルに依存しないアルゴリズムを提案する。
本手法は,DRLエージェントが相互作用する環境に類似するため,任意のブラックボックスモデルに容易に適用できる。
さらに,DRLエージェントのポリシーから説明可能な決定ルールを抽出し,CF自体を透過的に生成するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-22T17:08:49Z) - EG-Booster: Explanation-Guided Booster of ML Evasion Attacks [3.822543555265593]
本稿では,説明可能なMLの手法を活用して,敵対的事例作成をガイドするEG-Boosterという新しい手法を提案する。
EG-Boosterはアーキテクチャや脅威モデルをモデル化しておらず、以前文献で使われていた様々な距離メトリクスをサポートする。
以上の結果から,EG-Boosterは回避率を著しく向上し,摂動回数の減少が示唆された。
論文 参考訳(メタデータ) (2021-08-31T15:36:16Z) - Transfer Learning without Knowing: Reprogramming Black-box Machine
Learning Models with Scarce Data and Limited Resources [78.72922528736011]
そこで我々は,ブラックボックス・アタベラル・リプログラミング (BAR) という新しい手法を提案する。
ゼロオーダー最適化とマルチラベルマッピング技術を用いて、BARは入力出力応答のみに基づいてブラックボックスMLモデルをプログラムする。
BARは最先端の手法より優れ、バニラ対逆プログラミング法に匹敵する性能を得る。
論文 参考訳(メタデータ) (2020-07-17T01:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。