論文の概要: AUTOLYCUS: Exploiting Explainable AI (XAI) for Model Extraction Attacks
against Decision Tree Models
- arxiv url: http://arxiv.org/abs/2302.02162v1
- Date: Sat, 4 Feb 2023 13:23:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 19:46:48.244588
- Title: AUTOLYCUS: Exploiting Explainable AI (XAI) for Model Extraction Attacks
against Decision Tree Models
- Title(参考訳): AUTOLYCUS: 決定木モデルに対するモデル抽出攻撃のための説明可能なAI(XAI)の爆発
- Authors: Abdullah Caglar Oksuz, Anisa Halimi, Erman Ayday
- Abstract要約: 説明可能な人工知能(XAI)は、AIの背後にある意思決定プロセスを説明するためのテクニックと手順のセットである。
XAIはAIモデルの背後にある理由を理解するための優れたツールですが、そのような啓示のために提供されたデータは、セキュリティとプライバシの脆弱性を生み出します。
本稿では,決定木モデルの決定境界を推測するために,LIMEが提示した説明を活用するモデル抽出攻撃であるAUTOLYCUSを提案する。
- 参考スコア(独自算出の注目度): 2.2559617939136505
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Model extraction attack is one of the most prominent adversarial techniques
to target machine learning models along with membership inference attack and
model inversion attack. On the other hand, Explainable Artificial Intelligence
(XAI) is a set of techniques and procedures to explain the decision making
process behind AI. XAI is a great tool to understand the reasoning behind AI
models but the data provided for such revelation creates security and privacy
vulnerabilities. In this poster, we propose AUTOLYCUS, a model extraction
attack that exploits the explanations provided by LIME to infer the decision
boundaries of decision tree models and create extracted surrogate models that
behave similar to a target model.
- Abstract(参考訳): モデル抽出攻撃は、メンバシップ推論攻撃とモデル反転攻撃とともに、機械学習モデルをターゲットにする最も顕著な敵手法の1つである。
一方、説明可能な人工知能(XAI)は、AIの背後にある意思決定プロセスを説明するためのテクニックと手順のセットである。
XAIはAIモデルの背後にある理由を理解するための優れたツールですが、そのような啓示のために提供されるデータは、セキュリティとプライバシの脆弱性を生み出します。
本稿では,LIMEによるモデル抽出攻撃であるAUTOLYCUSを提案する。この攻撃は,決定木モデルの決定境界を推測し,対象モデルと同じような振る舞いをする抽出サロゲートモデルを作成する。
関連論文リスト
- MEAOD: Model Extraction Attack against Object Detectors [45.817537875368956]
モデル抽出攻撃は、攻撃者が被害者モデルに匹敵する機能を持つ代替モデルを複製することを可能にする。
本稿では,オブジェクト検出モデルに対するMEAODと呼ばれる効果的な攻撃手法を提案する。
10kのクエリ予算の所定の条件下で,抽出性能を70%以上達成する。
論文 参考訳(メタデータ) (2023-12-22T13:28:50Z) - Defense Against Model Extraction Attacks on Recommender Systems [53.127820987326295]
本稿では、モデル抽出攻撃に対するリコメンデータシステムに対する防御のために、グラディエントベースのランキング最適化(GRO)を導入する。
GROは、攻撃者の代理モデルの損失を最大化しながら、保護対象モデルの損失を最小限にすることを目的としている。
その結果,モデル抽出攻撃に対するGROの防御効果は良好であった。
論文 参考訳(メタデータ) (2023-10-25T03:30:42Z) - SCME: A Self-Contrastive Method for Data-free and Query-Limited Model
Extraction Attack [18.998300969035885]
モデル抽出は、代替モデル上で逆例を生成することによって、ターゲットモデルを騙す。
本稿では,偽データの合成におけるクラス間およびクラス内多様性を考慮した,SCME という新しいデータフリーモデル抽出手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T10:41:45Z) - OMG-ATTACK: Self-Supervised On-Manifold Generation of Transferable
Evasion Attacks [17.584752814352502]
Evasion Attacks (EA) は、入力データを歪ませることで、トレーニングされたニューラルネットワークの堅牢性をテストするために使用される。
本稿では, 自己教師型, 計算的経済的な手法を用いて, 対逆例を生成する手法を提案する。
我々の実験は、この手法が様々なモデル、目に見えないデータカテゴリ、さらには防御されたモデルで有効であることを一貫して実証している。
論文 参考訳(メタデータ) (2023-10-05T17:34:47Z) - Self-Destructing Models: Increasing the Costs of Harmful Dual Uses of
Foundation Models [103.71308117592963]
本稿ではメタラーニングと逆学習の技法を活用した自己破壊モデルの学習アルゴリズムを提案する。
小規模な実験では、MLACは、BERTスタイルのモデルが性別識別を行うために再目的化されることをほとんど防ぐことができることを示す。
論文 参考訳(メタデータ) (2022-11-27T21:43:45Z) - Careful What You Wish For: on the Extraction of Adversarially Trained
Models [2.707154152696381]
最近の機械学習(ML)モデルに対する攻撃は、いくつかのセキュリティとプライバシの脅威を引き起こす。
本稿では,敵の学習したモデルに対する抽出攻撃を評価する枠組みを提案する。
本研究では, 自然学習環境下で得られたモデルよりも, 敵の訓練を受けたモデルの方が抽出攻撃に対して脆弱であることを示す。
論文 参考訳(メタデータ) (2022-07-21T16:04:37Z) - Thief, Beware of What Get You There: Towards Understanding Model
Extraction Attack [13.28881502612207]
いくつかのシナリオでは、AIモデルはプロプライエタリに訓練され、事前に訓練されたモデルも十分な分散データも公開されていない。
既存の手法の有効性は,事前学習モデルの欠如に大きく影響している。
モデル抽出攻撃を、これらの要因を深層強化学習で捉える適応的フレームワークに定式化します。
論文 参考訳(メタデータ) (2021-04-13T03:46:59Z) - ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine
Learning Models [64.03398193325572]
機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどを学ぶことができる。
私たちは、メンバシップ推論、モデル反転、属性推論、モデル盗難の4つの攻撃に集中しています。
私たちの分析では、MLモデルオーナがモデルをデプロイするリスクを評価することができる、モジュール化された再使用可能なソフトウェアであるML-Doctorに依存しています。
論文 参考訳(メタデータ) (2021-02-04T11:35:13Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z) - Orthogonal Deep Models As Defense Against Black-Box Attacks [71.23669614195195]
攻撃者が標的モデルに類似したモデルを用いて攻撃を発生させるブラックボックス設定における深層モデル固有の弱点について検討する。
本稿では,深部モデルの内部表現を他のモデルに直交させる新しい勾配正規化手法を提案する。
様々な大規模モデルにおいて,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2020-06-26T08:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。