論文の概要: MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models
- arxiv url: http://arxiv.org/abs/2506.02362v1
- Date: Tue, 03 Jun 2025 01:37:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.1948
- Title: MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models
- Title(参考訳): MISLEADER: 蒸留モデルの組合わせによるモデル抽出に対する防御
- Authors: Xueqi Cheng, Minxing Zheng, Shixiang Zhu, Yushun Dong,
- Abstract要約: モデル抽出攻撃は、クエリアクセスを通じてブラックボックスモデルの機能を複製することを目的としている。
既存のディフェンスでは、アタッカークエリにはオフ・オブ・ディストリビューション(OOD)サンプルがあることを前提としており、不審な入力を検出し破壊することができる。
OOD仮定に依存しない新しい防衛戦略であるMISLEADERを提案する。
- 参考スコア(独自算出の注目度): 56.09354775405601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model extraction attacks aim to replicate the functionality of a black-box model through query access, threatening the intellectual property (IP) of machine-learning-as-a-service (MLaaS) providers. Defending against such attacks is challenging, as it must balance efficiency, robustness, and utility preservation in the real-world scenario. Despite the recent advances, most existing defenses presume that attacker queries have out-of-distribution (OOD) samples, enabling them to detect and disrupt suspicious inputs. However, this assumption is increasingly unreliable, as modern models are trained on diverse datasets and attackers often operate under limited query budgets. As a result, the effectiveness of these defenses is significantly compromised in realistic deployment scenarios. To address this gap, we propose MISLEADER (enseMbles of dIStiLled modEls Against moDel ExtRaction), a novel defense strategy that does not rely on OOD assumptions. MISLEADER formulates model protection as a bilevel optimization problem that simultaneously preserves predictive fidelity on benign inputs and reduces extractability by potential clone models. Our framework combines data augmentation to simulate attacker queries with an ensemble of heterogeneous distilled models to improve robustness and diversity. We further provide a tractable approximation algorithm and derive theoretical error bounds to characterize defense effectiveness. Extensive experiments across various settings validate the utility-preserving and extraction-resistant properties of our proposed defense strategy. Our code is available at https://github.com/LabRAI/MISLEADER.
- Abstract(参考訳): モデル抽出攻撃は、クエリアクセスを通じてブラックボックスモデルの機能を複製することを目的としており、マシンラーニング・アズ・ア・サービス(MLaaS)プロバイダの知的財産(IP)を脅かす。
このような攻撃に対する防御は、現実のシナリオにおいて効率性、堅牢性、ユーティリティ保存のバランスをとる必要があるため、難しい。
最近の進歩にも拘わらず、攻撃者のクエリーはOOD(out-of-distribution)サンプルを持ち、不審な入力を検出し破壊することができると推定されている。
しかし、現代のモデルは多様なデータセットで訓練されており、攻撃者は限られたクエリ予算の下で操作することが多いため、この仮定はますます信頼できないものになっている。
その結果、現実的な展開シナリオでは、これらの防御の有効性が著しく損なわれます。
このギャップに対処するために、OOD仮定に依存しない新しい防衛戦略であるMISLEADER (enseMbles of dIStiLled modEls Against moDel ExtRaction)を提案する。
MISLEADERはモデル保護を二段階最適化問題として定式化し、良性入力の予測忠実度を同時に保存し、潜在的なクローンモデルによる抽出可能性を低減する。
我々のフレームワークは、データ拡張と攻撃者のクエリのシミュレートと不均一な蒸留モデルのアンサンブルを組み合わせることで、堅牢性と多様性を向上させる。
さらに, 予測可能な近似アルゴリズムを提案し, 理論誤差を導出し, 防御効果を特徴づける。
各種環境における多種多様な実験により, 提案した防衛戦略の実用性, 抽出抵抗性を検証した。
私たちのコードはhttps://github.com/LabRAI/MISLEADER.comで公開されています。
関連論文リスト
- RADEP: A Resilient Adaptive Defense Framework Against Model Extraction Attacks [6.6680585862156105]
モデル抽出攻撃防御(RADEP)のためのレジリエント・アダプティブ・ディフェンス・フレームワークについて紹介する。
RADEPは、抽出の試みに対するモデルレジリエンスを高めるために、プログレッシブ・逆行訓練を採用している。
オーナーシップ検証は、組み込みのウォーターマーキングとバックドアトリガーを通じて実施される。
論文 参考訳(メタデータ) (2025-05-25T23:28:05Z) - CALoR: Towards Comprehensive Model Inversion Defense [43.2642796582236]
Model Inversion Attacks (MIAs)は、プライバシに敏感なトレーニングデータを、リリースされた機械学習モデルにエンコードされた知識から回復することを目的としている。
MIA分野の最近の進歩は、複数のシナリオにおける攻撃性能を大幅に向上させた。
信頼性適応と低ランク圧縮を統合した堅牢な防御機構を提案する。
論文 参考訳(メタデータ) (2024-10-08T08:44:01Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Isolation and Induction: Training Robust Deep Neural Networks against
Model Stealing Attacks [51.51023951695014]
既存のモデル盗難防衛は、被害者の後部確率に偽りの摂動を加え、攻撃者を誤解させる。
本稿では,モデルステルス防衛のための新規かつ効果的なトレーニングフレームワークである分離誘導(InI)を提案する。
モデルの精度を損なうモデル予測に摂動を加えるのとは対照的に、我々はモデルを訓練して、盗むクエリに対して非形式的なアウトプットを生成する。
論文 参考訳(メタデータ) (2023-08-02T05:54:01Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - I Know What You Trained Last Summer: A Survey on Stealing Machine
Learning Models and Defences [0.1031296820074812]
本研究では,モデル盗難攻撃について検討し,その性能を評価し,異なる環境で対応する防御技術を探究する。
攻撃・防衛アプローチのための分類法を提案し,目標と利用可能な資源に基づいて適切な攻撃・防衛を選択する方法に関するガイドラインを提供する。
論文 参考訳(メタデータ) (2022-06-16T21:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。