論文の概要: RADEP: A Resilient Adaptive Defense Framework Against Model Extraction Attacks
- arxiv url: http://arxiv.org/abs/2505.19364v1
- Date: Sun, 25 May 2025 23:28:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.073756
- Title: RADEP: A Resilient Adaptive Defense Framework Against Model Extraction Attacks
- Title(参考訳): RADEP: モデル抽出攻撃に対するレジリエントな適応型防御フレームワーク
- Authors: Amit Chakraborty, Sayyed Farid Ahamed, Sandip Roy, Soumya Banerjee, Kevin Choi, Abdul Rahman, Alison Hu, Edward Bowen, Sachin Shetty,
- Abstract要約: モデル抽出攻撃防御(RADEP)のためのレジリエント・アダプティブ・ディフェンス・フレームワークについて紹介する。
RADEPは、抽出の試みに対するモデルレジリエンスを高めるために、プログレッシブ・逆行訓練を採用している。
オーナーシップ検証は、組み込みのウォーターマーキングとバックドアトリガーを通じて実施される。
- 参考スコア(独自算出の注目度): 6.6680585862156105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine Learning as a Service (MLaaS) enables users to leverage powerful machine learning models through cloud-based APIs, offering scalability and ease of deployment. However, these services are vulnerable to model extraction attacks, where adversaries repeatedly query the application programming interface (API) to reconstruct a functionally similar model, compromising intellectual property and security. Despite various defense strategies being proposed, many suffer from high computational costs, limited adaptability to evolving attack techniques, and a reduction in performance for legitimate users. In this paper, we introduce a Resilient Adaptive Defense Framework for Model Extraction Attack Protection (RADEP), a multifaceted defense framework designed to counteract model extraction attacks through a multi-layered security approach. RADEP employs progressive adversarial training to enhance model resilience against extraction attempts. Malicious query detection is achieved through a combination of uncertainty quantification and behavioral pattern analysis, effectively identifying adversarial queries. Furthermore, we develop an adaptive response mechanism that dynamically modifies query outputs based on their suspicion scores, reducing the utility of stolen models. Finally, ownership verification is enforced through embedded watermarking and backdoor triggers, enabling reliable identification of unauthorized model use. Experimental evaluations demonstrate that RADEP significantly reduces extraction success rates while maintaining high detection accuracy with minimal impact on legitimate queries. Extensive experiments show that RADEP effectively defends against model extraction attacks and remains resilient even against adaptive adversaries, making it a reliable security framework for MLaaS models.
- Abstract(参考訳): 機械学習・アズ・ア・サービス(MLaaS)は、クラウドベースのAPIを通じて強力な機械学習モデルを活用でき、スケーラビリティとデプロイメントの容易さを提供する。
しかし、これらのサービスはモデル抽出攻撃に弱いため、敵が繰り返しアプリケーションプログラミングインターフェース(API)に問い合わせ、機能的に類似したモデルを再構築し、知的財産権とセキュリティを妥協する。
様々な防衛戦略が提案されているにもかかわらず、多くは高い計算コスト、進化する攻撃技術への適応性の制限、正規ユーザのパフォーマンスの低下に悩まされている。
本稿では,多層セキュリティアプローチによるモデル抽出攻撃の防止を目的とした多面的防御フレームワークであるモデル抽出攻撃防止のためのレジリエント・アダプティブ・ディフェンス・フレームワーク(RADEP)を提案する。
RADEPは、抽出の試みに対するモデルレジリエンスを高めるために、プログレッシブ・逆行訓練を採用している。
不確実な定量化と行動パターン分析を組み合わせることで、悪意のあるクエリ検出を実現し、敵クエリを効果的に識別する。
さらに,疑似スコアに基づいてクエリ出力を動的に修正する適応応答機構を開発し,盗難モデルの有用性を低減した。
最後に、オーナシップ検証は組み込みの透かしとバックドアトリガーによって実施され、無許可モデルの使用の信頼性が保証される。
実験により、RADEPは正当性クエリへの影響を最小限に抑えつつ高い検出精度を維持しながら、抽出成功率を著しく低下させることが示された。
大規模な実験により、RADEPはモデル抽出攻撃を効果的に防御し、適応的な敵に対しても回復力を維持することが示され、MLaaSモデルの信頼性の高いセキュリティフレームワークとなっている。
関連論文リスト
- OET: Optimization-based prompt injection Evaluation Toolkit [25.148709805243836]
大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を示した。
インジェクション攻撃に対する感受性は、重大なセキュリティリスクを生じさせる。
多くの防衛戦略にもかかわらず、その効果を厳格に評価する標準化された枠組みが欠如している。
論文 参考訳(メタデータ) (2025-05-01T20:09:48Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - MisGUIDE : Defense Against Data-Free Deep Learning Model Extraction [0.8437187555622164]
MisGUIDE(ミスGUIDE)は、ディープラーニングモデルのための2段階の防御フレームワークである。
提案手法の目的は,真正クエリの精度を維持しつつ,クローンモデルの精度を下げることである。
論文 参考訳(メタデータ) (2024-03-27T13:59:21Z) - A Novel Evaluation Framework for Assessing Resilience Against Prompt Injection Attacks in Large Language Models [0.0]
本研究では,アプリケーションのレジリエンスを定量化する新しいフレームワークを提案する。
このフレームワークには、代表性、解釈可能性、堅牢性を保証するために設計された革新的な技術が含まれている。
その結果, 新しいモデルであるLlama2はChatGLMよりも高いレジリエンスを示した。
論文 参考訳(メタデータ) (2024-01-02T02:06:48Z) - Constrained Adaptive Attacks: Realistic Evaluation of Adversarial
Examples and Robust Training of Deep Neural Networks for Tabular Data [19.579837693614326]
本稿では,制約付きディープラーニングモデルに対する最初の効率的な回避攻撃であるCAAを提案する。
CAAを活用して、クレジットスコア、フィッシング、ボットネット攻撃検出という3つの一般的なユースケースにわたる、ディープタブモデルのベンチマークを構築します。
論文 参考訳(メタデータ) (2023-11-08T07:35:28Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - G$^2$uardFL: Safeguarding Federated Learning Against Backdoor Attacks
through Attributed Client Graph Clustering [116.4277292854053]
Federated Learning (FL)は、データ共有なしで協調的なモデルトレーニングを提供する。
FLはバックドア攻撃に弱いため、有害なモデル重みがシステムの整合性を損なう。
本稿では、悪意のあるクライアントの識別を属性グラフクラスタリング問題として再解釈する保護フレームワークであるG$2$uardFLを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:15:04Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - Towards Adversarial Realism and Robust Learning for IoT Intrusion
Detection and Classification [0.0]
IoT(Internet of Things)は、重大なセキュリティ上の課題に直面している。
敵の攻撃による脅威の増大は、信頼できる防衛戦略の必要性を回復させる。
本研究は、敵のサイバー攻撃事例が現実的であるために必要な制約の種類について述べる。
論文 参考訳(メタデータ) (2023-01-30T18:00:28Z) - Model-Agnostic Meta-Attack: Towards Reliable Evaluation of Adversarial
Robustness [53.094682754683255]
モデル非依存型メタアタック(MAMA)アプローチにより,より強力な攻撃アルゴリズムを自動検出する。
本手法は、繰り返しニューラルネットワークによってパラメータ化された逆攻撃を学習する。
本研究では,未知の防御を攻撃した場合の学習能力を向上させるために,モデルに依存しない訓練アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-13T13:54:24Z) - Defense for Black-box Attacks on Anti-spoofing Models by Self-Supervised
Learning [71.17774313301753]
本研究では,自己指導型高水準表現の堅牢性について,敵攻撃に対する防御に利用して検討する。
ASVspoof 2019データセットの実験結果は、Mockingjayによって抽出されたハイレベルな表現が、敵の例の転送可能性を妨げることを示した。
論文 参考訳(メタデータ) (2020-06-05T03:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。