論文の概要: Defense Against Model Stealing Based on Account-Aware Distribution Discrepancy
- arxiv url: http://arxiv.org/abs/2503.12497v1
- Date: Sun, 16 Mar 2025 13:22:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 14:56:57.941513
- Title: Defense Against Model Stealing Based on Account-Aware Distribution Discrepancy
- Title(参考訳): アカウントアウェア分布の相違に基づくモデルステアリングに対する防御
- Authors: Jian-Ping Mei, Weibin Zhang, Jie Chen, Xuyun Zhang, Tiantian Zhu,
- Abstract要約: 悪意のあるユーザは、クエリ応答を持つクローンモデルをトレーニングすることで、商用モデルを低コストで機能的に複製しようとする。
このようなモデルステアリング攻撃をタイムリーに防ぎ、強力な保護と実用性を維持することは困難である。
本稿では,悪意のあるユーザからのクエリを認識するために,ADD(Account-aware Distribution Discrepancy)と呼ばれる新しい非パラメトリック検出器を提案する。
- 参考スコア(独自算出の注目度): 17.915533220051916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Malicious users attempt to replicate commercial models functionally at low cost by training a clone model with query responses. It is challenging to timely prevent such model-stealing attacks to achieve strong protection and maintain utility. In this paper, we propose a novel non-parametric detector called Account-aware Distribution Discrepancy (ADD) to recognize queries from malicious users by leveraging account-wise local dependency. We formulate each class as a Multivariate Normal distribution (MVN) in the feature space and measure the malicious score as the sum of weighted class-wise distribution discrepancy. The ADD detector is combined with random-based prediction poisoning to yield a plug-and-play defense module named D-ADD for image classification models. Results of extensive experimental studies show that D-ADD achieves strong defense against different types of attacks with little interference in serving benign users for both soft and hard-label settings.
- Abstract(参考訳): 悪意のあるユーザは、クエリ応答を持つクローンモデルをトレーニングすることで、商用モデルを低コストで機能的に複製しようとする。
このようなモデルステアリング攻撃をタイムリーに防ぎ、強力な保護と実用性を維持することは困難である。
本稿では,アカウント単位のローカル依存を利用して悪意のあるユーザからのクエリを識別する,ADD(Account-aware Distribution Discrepancy)と呼ばれる新しい非パラメータ検出手法を提案する。
特徴空間における各クラスを多変量正規分布(MVN)として定式化し、悪質なスコアを重み付けされたクラスワイド分布の不一致の和として測定する。
ADD検出器は、画像分類モデルのためのプラグアンドプレイディフェンスモジュールD-ADDを生成するために、ランダムベースの予測毒と組み合わせられる。
広範にわたる実験の結果,D-ADDは,ソフトおよびハードラベル設定の両方において,良質なユーザに提供するのにほとんど干渉することなく,様々な種類の攻撃に対して強い防御力を発揮することが示された。
関連論文リスト
- A generative approach to LLM harmfulness detection with special red flag tokens [15.796683630119654]
我々はレッドフラッグトークン(rf>)と呼ばれる特別なトークンでモデルの語彙を拡張することを提案する。
本発明の安全性訓練方法は、会話中に常に有害な生成分類器にLLMを効果的に増強する。
また、入力プロンプトだけでなく、生成された各回答を評価し、サンプリングベースの攻撃に対してより強力な防御を提供する。
論文 参考訳(メタデータ) (2025-02-22T21:48:48Z) - Defending Against Neural Network Model Inversion Attacks via Data Poisoning [15.099559883494475]
モデル反転攻撃は、機械学習モデルに重大なプライバシー上の脅威をもたらす。
本稿では,プライバシとユーティリティのバランスを改善するための新しい防御機構を提案する。
本稿では,データ中毒を利用したインバージョンモデルのトレーニングデータを汚染する手法を提案する。
論文 参考訳(メタデータ) (2024-12-10T15:08:56Z) - PASA: Attack Agnostic Unsupervised Adversarial Detection using Prediction & Attribution Sensitivity Analysis [2.5347892611213614]
分類のためのディープニューラルネットワークは、サンプル入力に対する小さな摂動が誤った予測につながる敵攻撃に対して脆弱である。
本研究では, モデル予測と特徴属性のこの特性の実用的手法を開発し, 対向サンプルを検出する。
本手法は,敵が防御機構を認識した場合でも,競争性能を示す。
論文 参考訳(メタデータ) (2024-04-12T21:22:21Z) - Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - DTA: Distribution Transform-based Attack for Query-Limited Scenario [11.874670564015789]
敵の例を生成する際、従来のブラックボックス攻撃法は攻撃対象モデルからの十分なフィードバックに依存している。
本稿では,攻撃された動作が限られた数のクエリを実行可能であることをシミュレートするハードラベル攻撃を提案する。
提案したアイデアの有効性とDTAの最先端性を検証する実験を行った。
論文 参考訳(メタデータ) (2023-12-12T13:21:03Z) - DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - Improving Adversarial Robustness to Sensitivity and Invariance Attacks
with Deep Metric Learning [80.21709045433096]
対向ロバスト性の標準的な方法は、サンプルを最小に摂動させることによって作られたサンプルに対して防御する枠組みを仮定する。
距離学習を用いて、最適輸送問題として逆正則化をフレーム化する。
予備的な結果から, 変分摂動の規則化は, 変分防御と敏感防御の両方を改善することが示唆された。
論文 参考訳(メタデータ) (2022-11-04T13:54:02Z) - Invariant Aggregator for Defending against Federated Backdoor Attacks [28.416262423174796]
フェデレートラーニングは、プライベートデータを直接共有することなく、複数のクライアントで高ユーティリティモデルをトレーニングすることを可能にする。
欠点として、フェデレートされた設定は、悪意のあるクライアントの存在下での様々な敵攻撃に対して、モデルを脆弱にする。
本稿では、集約された更新を一般的に有用である不変方向へリダイレクトする不変アグリゲータを提案する。
論文 参考訳(メタデータ) (2022-10-04T18:06:29Z) - Defending Distributed Classifiers Against Data Poisoning Attacks [26.89258745198076]
サポートベクタマシン(SVM)は、ターゲットとするトレーニングデータ操作に対して脆弱である。
我々はこのような攻撃に対する抵抗を改善する新しい防御アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-08-21T03:11:23Z) - Defense for Black-box Attacks on Anti-spoofing Models by Self-Supervised
Learning [71.17774313301753]
本研究では,自己指導型高水準表現の堅牢性について,敵攻撃に対する防御に利用して検討する。
ASVspoof 2019データセットの実験結果は、Mockingjayによって抽出されたハイレベルな表現が、敵の例の転送可能性を妨げることを示した。
論文 参考訳(メタデータ) (2020-06-05T03:03:06Z) - SUOD: Accelerating Large-Scale Unsupervised Heterogeneous Outlier
Detection [63.253850875265115]
外乱検出(OD)は、一般的なサンプルから異常物体を識別するための機械学習(ML)タスクである。
そこで我々は,SUODと呼ばれるモジュール型加速度システムを提案する。
論文 参考訳(メタデータ) (2020-03-11T00:22:50Z) - Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial
Perturbations [65.05561023880351]
敵の例は誤分類を引き起こすために作られた悪意のある入力である。
本稿では, 相補的障害モード, 不変性に基づく逆数例について検討する。
感度に基づく攻撃に対する防御は、不変性に基づく攻撃に対するモデルの精度を積極的に損なうことを示す。
論文 参考訳(メタデータ) (2020-02-11T18:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。