論文の概要: HoneypotNet: Backdoor Attacks Against Model Extraction
- arxiv url: http://arxiv.org/abs/2501.01090v1
- Date: Thu, 02 Jan 2025 06:23:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:15:06.167796
- Title: HoneypotNet: Backdoor Attacks Against Model Extraction
- Title(参考訳): HoneypotNet: モデル抽出に対するバックドア攻撃
- Authors: Yixu Wang, Tianle Gu, Yan Teng, Yingchun Wang, Xingjun Ma,
- Abstract要約: モデル抽出攻撃は、プロダクションモデルとMLプラットフォームに深刻なセキュリティ脅威をもたらす。
我々は、モデル出力を有害なものに修正する、アタック・アズ・ディフェンスと呼ばれる新しい防衛パラダイムを導入する。
HoneypotNetは、高い成功率でバックドアを代替モデルに注入することができる。
- 参考スコア(独自算出の注目度): 24.603590328055027
- License:
- Abstract: Model extraction attacks are one type of inference-time attacks that approximate the functionality and performance of a black-box victim model by launching a certain number of queries to the model and then leveraging the model's predictions to train a substitute model. These attacks pose severe security threats to production models and MLaaS platforms and could cause significant monetary losses to the model owners. A body of work has proposed to defend machine learning models against model extraction attacks, including both active defense methods that modify the model's outputs or increase the query overhead to avoid extraction and passive defense methods that detect malicious queries or leverage watermarks to perform post-verification. In this work, we introduce a new defense paradigm called attack as defense which modifies the model's output to be poisonous such that any malicious users that attempt to use the output to train a substitute model will be poisoned. To this end, we propose a novel lightweight backdoor attack method dubbed HoneypotNet that replaces the classification layer of the victim model with a honeypot layer and then fine-tunes the honeypot layer with a shadow model (to simulate model extraction) via bi-level optimization to modify its output to be poisonous while remaining the original performance. We empirically demonstrate on four commonly used benchmark datasets that HoneypotNet can inject backdoors into substitute models with a high success rate. The injected backdoor not only facilitates ownership verification but also disrupts the functionality of substitute models, serving as a significant deterrent to model extraction attacks.
- Abstract(参考訳): モデル抽出攻撃は、特定の数のクエリをモデルに起動し、モデルの予測を利用して代替モデルをトレーニングすることで、ブラックボックスの犠牲者モデルの機能と性能を近似する推論時攻撃の一種である。
これらの攻撃は、プロダクションモデルとMLaaSプラットフォームに深刻なセキュリティ上の脅威をもたらし、モデル所有者に重大な金銭的損失をもたらす可能性がある。
モデルの出力を変更したり、クエリのオーバーヘッドを増大させるアクティブディフェンスメソッドと、悪意のあるクエリを検出したり、透かしを利用して検証後に実行するパッシブディフェンスメソッドの両方を含む、機械学習モデルをモデル抽出攻撃から防御する作業が提案されている。
そこで本研究では,代用モデルの訓練に使用する悪意のあるユーザに対して有毒になるように,モデル出力を有害なものに修正する,アタック・アズ・ディフェンスと呼ばれる新たな防衛パラダイムを導入する。
そこで本研究では,ハニーポットモデルの分類層をハニーポット層に置き換え,二段階最適化によるシャドウモデル(モデル抽出を模擬する)でハニーポット層を微調整し,その出力を元の性能を維持しながら有毒に修正する,ハニーポットネットと呼ばれる新しいバックドアアタック手法を提案する。
私たちは、HoneypotNetがバックドアを代用モデルに高い成功率で注入できる4つの一般的なベンチマークデータセットを実証的に実証した。
注入されたバックドアは、オーナシップの検証を容易にするだけでなく、代替モデルの機能を阻害し、モデル抽出攻撃に対する重大な抑止力となる。
関連論文リスト
- Bounding-box Watermarking: Defense against Model Extraction Attacks on Object Detectors [1.1510009152620668]
この研究はオブジェクト検出(OD)モデルに焦点を当てている。
既存のODモデルに対するバックドア攻撃は、現実的な脅威モデルにおけるMEAに対する防御としてモデル透かしには適用できない。
提案手法では,OD機能を保ちながら,クエリで検出されたオブジェクトのバウンディングボックス(BB)を密かに修正することで,抽出したモデルにAPIを介してバックドアを挿入する。
論文 参考訳(メタデータ) (2024-11-20T05:40:20Z) - Towards Scalable and Robust Model Versioning [30.249607205048125]
ディープラーニングモデルへのアクセスを目的とした悪意ある侵入が増えている。
異なる攻撃特性を持つモデルの複数バージョンを生成する方法を示す。
モデル学習データにパラメータ化された隠れ分布を組み込むことでこれを実現できることを示す。
論文 参考訳(メタデータ) (2024-01-17T19:55:49Z) - MEAOD: Model Extraction Attack against Object Detectors [45.817537875368956]
モデル抽出攻撃は、攻撃者が被害者モデルに匹敵する機能を持つ代替モデルを複製することを可能にする。
本稿では,オブジェクト検出モデルに対するMEAODと呼ばれる効果的な攻撃手法を提案する。
10kのクエリ予算の所定の条件下で,抽出性能を70%以上達成する。
論文 参考訳(メタデータ) (2023-12-22T13:28:50Z) - Defense Against Model Extraction Attacks on Recommender Systems [53.127820987326295]
本稿では、モデル抽出攻撃に対するリコメンデータシステムに対する防御のために、グラディエントベースのランキング最適化(GRO)を導入する。
GROは、攻撃者の代理モデルの損失を最大化しながら、保護対象モデルの損失を最小限にすることを目的としている。
その結果,モデル抽出攻撃に対するGROの防御効果は良好であった。
論文 参考訳(メタデータ) (2023-10-25T03:30:42Z) - SecurityNet: Assessing Machine Learning Vulnerabilities on Public Models [74.58014281829946]
本研究では, モデル盗難攻撃, メンバーシップ推論攻撃, パブリックモデルにおけるバックドア検出など, いくつかの代表的な攻撃・防御の有効性を解析する。
実験により,これらの攻撃・防御性能は,自己学習モデルと比較して,公共モデルによって大きく異なることが示された。
論文 参考訳(メタデータ) (2023-10-19T11:49:22Z) - Beyond Labeling Oracles: What does it mean to steal ML models? [52.63413852460003]
モデル抽出攻撃は、クエリアクセスのみで訓練されたモデルを盗むように設計されている。
モデル抽出攻撃の成功に影響を及ぼす要因について検討する。
我々は,ME攻撃の敵の目標を再定義するようコミュニティに促した。
論文 参考訳(メタデータ) (2023-10-03T11:10:21Z) - Isolation and Induction: Training Robust Deep Neural Networks against
Model Stealing Attacks [51.51023951695014]
既存のモデル盗難防衛は、被害者の後部確率に偽りの摂動を加え、攻撃者を誤解させる。
本稿では,モデルステルス防衛のための新規かつ効果的なトレーニングフレームワークである分離誘導(InI)を提案する。
モデルの精度を損なうモデル予測に摂動を加えるのとは対照的に、我々はモデルを訓練して、盗むクエリに対して非形式的なアウトプットを生成する。
論文 参考訳(メタデータ) (2023-08-02T05:54:01Z) - MOVE: Effective and Harmless Ownership Verification via Embedded
External Features [109.19238806106426]
本稿では,異なる種類のモデル盗難を同時に防ぐために,効果的かつ無害なモデル所有者認証(MOVE)を提案する。
我々は、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証し、所有権検証を行う。
特に、包括的モデル保護を提供するために、ホワイトボックスとブラックボックスの両方の設定でMOVE法を開発した。
論文 参考訳(メタデータ) (2022-08-04T02:22:29Z) - Careful What You Wish For: on the Extraction of Adversarially Trained
Models [2.707154152696381]
最近の機械学習(ML)モデルに対する攻撃は、いくつかのセキュリティとプライバシの脅威を引き起こす。
本稿では,敵の学習したモデルに対する抽出攻撃を評価する枠組みを提案する。
本研究では, 自然学習環境下で得られたモデルよりも, 敵の訓練を受けたモデルの方が抽出攻撃に対して脆弱であることを示す。
論文 参考訳(メタデータ) (2022-07-21T16:04:37Z) - DeepSight: Mitigating Backdoor Attacks in Federated Learning Through
Deep Model Inspection [26.593268413299228]
フェデレートラーニング(FL)では、複数のクライアントが、データを公開せずに、プライベートデータ上でニューラルネットワーク(NN)モデルを協調的にトレーニングすることができる。
DeepSightは、バックドア攻撃を緩和するための新しいモデルフィルタリングアプローチである。
モデルの性能に悪影響を及ぼすことなく、最先端のバックドア攻撃を軽減できることを示す。
論文 参考訳(メタデータ) (2022-01-03T17:10:07Z) - Defense for Black-box Attacks on Anti-spoofing Models by Self-Supervised
Learning [71.17774313301753]
本研究では,自己指導型高水準表現の堅牢性について,敵攻撃に対する防御に利用して検討する。
ASVspoof 2019データセットの実験結果は、Mockingjayによって抽出されたハイレベルな表現が、敵の例の転送可能性を妨げることを示した。
論文 参考訳(メタデータ) (2020-06-05T03:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。