論文の概要: On the Difficulty of Defending Self-Supervised Learning against Model
Extraction
- arxiv url: http://arxiv.org/abs/2205.07890v1
- Date: Mon, 16 May 2022 17:20:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-18 12:58:52.747163
- Title: On the Difficulty of Defending Self-Supervised Learning against Model
Extraction
- Title(参考訳): モデル抽出に対する自己監督学習の欠陥について
- Authors: Adam Dziedzic, Nikita Dhawan, Muhammad Ahmad Kaleem, Jonas Guan,
Nicolas Papernot
- Abstract要約: SSL(Self Supervised Learning)は、複雑な入力を明示的なラベルに頼ることなく表現に変換するモデルを訓練するMLパラダイムである。
本稿ではSSLに対するモデル盗難攻撃について検討する。
いくつかの新たな攻撃を構築し、被害者の盗難表現を直接訓練するアプローチがクエリ効率が高く、下流モデルに高い精度で適用可能であることを発見した。
- 参考スコア(独自算出の注目度): 23.497838165711983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-Supervised Learning (SSL) is an increasingly popular ML paradigm that
trains models to transform complex inputs into representations without relying
on explicit labels. These representations encode similarity structures that
enable efficient learning of multiple downstream tasks. Recently,
ML-as-a-Service providers have commenced offering trained SSL models over
inference APIs, which transform user inputs into useful representations for a
fee. However, the high cost involved to train these models and their exposure
over APIs both make black-box extraction a realistic security threat. We thus
explore model stealing attacks against SSL. Unlike traditional model extraction
on classifiers that output labels, the victim models here output
representations; these representations are of significantly higher
dimensionality compared to the low-dimensional prediction scores output by
classifiers. We construct several novel attacks and find that approaches that
train directly on a victim's stolen representations are query efficient and
enable high accuracy for downstream models. We then show that existing defenses
against model extraction are inadequate and not easily retrofitted to the
specificities of SSL.
- Abstract(参考訳): SSL(Self Supervised Learning)は、複雑な入力を明示的なラベルに頼ることなく表現に変換するモデルを訓練するMLパラダイムである。
これらの表現は、複数の下流タスクの効率的な学習を可能にする類似構造を符号化する。
最近、ML-as-a-Serviceプロバイダは、推論APIよりも訓練済みのSSLモデルの提供を開始した。
しかし、これらのモデルのトレーニングに要する高コストとAPIによるエクスポージャーの両方が、ブラックボックス抽出を現実的なセキュリティ脅威にしている。
したがって、sslに対するモデル盗み攻撃を探求する。
ラベルを出力する分類器の伝統的なモデル抽出とは異なり、被害者のモデルは表現を出力し、これらの表現は分類器が出力する低次元の予測スコアに比べてかなり高い次元を示す。
我々は,被害者の盗まれた表現を直接トレーニングする手法がクエリー効率が高く,下流モデルの精度が高いことを発見した。
そして、モデル抽出に対する既存の防御が不十分であり、sslの特異性に簡単には適合しないことを示す。
関連論文リスト
- Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。
本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。
これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文 参考訳(メタデータ) (2025-01-02T22:26:54Z) - Defending Against Neural Network Model Inversion Attacks via Data Poisoning [15.099559883494475]
モデル反転攻撃は、機械学習モデルに重大なプライバシー上の脅威をもたらす。
本稿では,プライバシとユーティリティのバランスを改善するための新しい防御機構を提案する。
本稿では,データ中毒を利用したインバージョンモデルのトレーニングデータを汚染する手法を提案する。
論文 参考訳(メタデータ) (2024-12-10T15:08:56Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - MisGUIDE : Defense Against Data-Free Deep Learning Model Extraction [0.8437187555622164]
MisGUIDE(ミスGUIDE)は、ディープラーニングモデルのための2段階の防御フレームワークである。
提案手法の目的は,真正クエリの精度を維持しつつ,クローンモデルの精度を下げることである。
論文 参考訳(メタデータ) (2024-03-27T13:59:21Z) - Beyond Labeling Oracles: What does it mean to steal ML models? [52.63413852460003]
モデル抽出攻撃は、クエリアクセスのみで訓練されたモデルを盗むように設計されている。
モデル抽出攻撃の成功に影響を及ぼす要因について検討する。
我々は,ME攻撃の敵の目標を再定義するようコミュニティに促した。
論文 参考訳(メタデータ) (2023-10-03T11:10:21Z) - Progressive Feature Adjustment for Semi-supervised Learning from
Pretrained Models [39.42802115580677]
半教師付き学習(SSL)はラベル付きデータとラベルなしデータの両方を利用して予測モデルを構築することができる。
近年の文献では、事前訓練されたモデルで最先端のSSLを適用しても、トレーニングデータの潜在能力を最大限に発揮できないことが示唆されている。
本稿では,ラベルの誤りに敏感でない特徴抽出器を更新するために,非ラベルデータから擬似ラベルを使用することを提案する。
論文 参考訳(メタデータ) (2023-09-09T01:57:14Z) - Model Extraction Attack against Self-supervised Speech Models [52.81330435990717]
自己教師付き学習(SSL)音声モデルは、与えられたクリップの有意義な表現を生成する。
モデル抽出攻撃 (MEA) は、しばしば、クエリアクセスのみで被害者モデルの機能を盗む敵を指す。
本稿では,少数のクエリを用いたSSL音声モデルに対するMEA問題について検討する。
論文 参考訳(メタデータ) (2022-11-29T09:28:05Z) - Are You Stealing My Model? Sample Correlation for Fingerprinting Deep
Neural Networks [86.55317144826179]
従来の方法は、常にモデル指紋として転送可能な敵の例を利用する。
本稿では,SAmple correlation (SAC) に基づく新しいモデル盗難検出手法を提案する。
SACは、敵の訓練や移動学習を含む様々なモデル盗難攻撃をうまく防いでいる。
論文 参考訳(メタデータ) (2022-10-21T02:07:50Z) - Dataset Inference for Self-Supervised Models [21.119579812529395]
機械学習(ML)における自己教師型モデルの普及
それらは、出力するベクトル表現の高次元性のために、モデルステルス攻撃に対して脆弱である。
我々は、被害者エンコーダモデルのプライベートトレーニングセットを使用して、盗難時にその所有権を属性とする新しいデータセット推論ディフェンスを導入する。
論文 参考訳(メタデータ) (2022-09-16T15:39:06Z) - Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。
本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。
実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文 参考訳(メタデータ) (2021-06-06T00:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。