論文の概要: From Zero to Hero: Detecting Leaked Data through Synthetic Data
Injection and Model Querying
- arxiv url: http://arxiv.org/abs/2310.04145v1
- Date: Fri, 6 Oct 2023 10:36:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-09 21:01:22.983186
- Title: From Zero to Hero: Detecting Leaked Data through Synthetic Data
Injection and Model Querying
- Title(参考訳): ZeroからHero: 合成データ注入とモデルクエリによる漏洩データ検出
- Authors: Biao Wu, Qiang Huang, Anthony K. H. Tung
- Abstract要約: 局所分布シフト合成(textscLDSS)は,分類モデルの訓練に使用される漏洩データを検出する新しい手法である。
textscLDSSは、Naive Bayes、Decision Tree、Random Forestといった様々な分類モデルと互換性がある。
5つの実世界のデータセットにまたがる7種類の分類モデルについて広範な実験を行った。
- 参考スコア(独自算出の注目度): 12.272239607545089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safeguarding the Intellectual Property (IP) of data has become critically
important as machine learning applications continue to proliferate, and their
success heavily relies on the quality of training data. While various
mechanisms exist to secure data during storage, transmission, and consumption,
fewer studies have been developed to detect whether they are already leaked for
model training without authorization. This issue is particularly challenging
due to the absence of information and control over the training process
conducted by potential attackers.
In this paper, we concentrate on the domain of tabular data and introduce a
novel methodology, Local Distribution Shifting Synthesis (\textsc{LDSS}), to
detect leaked data that are used to train classification models. The core
concept behind \textsc{LDSS} involves injecting a small volume of synthetic
data--characterized by local shifts in class distribution--into the owner's
dataset. This enables the effective identification of models trained on leaked
data through model querying alone, as the synthetic data injection results in a
pronounced disparity in the predictions of models trained on leaked and
modified datasets. \textsc{LDSS} is \emph{model-oblivious} and hence compatible
with a diverse range of classification models, such as Naive Bayes, Decision
Tree, and Random Forest. We have conducted extensive experiments on seven types
of classification models across five real-world datasets. The comprehensive
results affirm the reliability, robustness, fidelity, security, and efficiency
of \textsc{LDSS}.
- Abstract(参考訳): 機械学習アプリケーションの普及が続けば、データの知的財産権(IP)の保護は極めて重要になり、その成功はトレーニングデータの質に大きく依存している。
ストレージ、送信、消費の間にデータを保護するための様々なメカニズムが存在するが、認可なくモデルトレーニングのために既に漏洩しているかどうかを検出する研究は少ない。
この問題は、潜在的な攻撃者が行うトレーニングプロセスに関する情報や制御がないため、特に困難である。
本稿では,表データの領域に集中して,分類モデルの学習に使用される漏洩データを検出するための新しい手法であるローカル分散シフト合成(\textsc{LDSS})を導入する。
textsc{LDSS}の背景にある中核的な概念は、少量の合成データ(クラス分布の局所的なシフトによって特徴付けられる)を所有者のデータセットに注入することである。
これにより、合成データインジェクションは、リークおよび修正データセットでトレーニングされたモデルの予測において、明らかな相違をもたらすため、モデルクエリだけで、リークデータでトレーニングされたモデルの効果的な識別が可能になる。
textsc{LDSS} は \emph{model-oblivious} であり、それゆえに Naive Bayes、Decision Tree、Random Forest などの様々な分類モデルと互換性がある。
5つの実世界のデータセットにまたがる7種類の分類モデルについて広範な実験を行った。
包括的結果は \textsc{ldss} の信頼性、堅牢性、忠実性、安全性、効率性を保証する。
関連論文リスト
- Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - SCME: A Self-Contrastive Method for Data-free and Query-Limited Model
Extraction Attack [18.998300969035885]
モデル抽出は、代替モデル上で逆例を生成することによって、ターゲットモデルを騙す。
本稿では,偽データの合成におけるクラス間およびクラス内多様性を考慮した,SCME という新しいデータフリーモデル抽出手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T10:41:45Z) - Approximate, Adapt, Anonymize (3A): a Framework for Privacy Preserving
Training Data Release for Machine Learning [3.29354893777827]
データリリースフレームワークである3A(Approximate, Adapt, Anonymize)を導入し、機械学習のデータユーティリティを最大化する。
本稿では,実データセットと民生データセットでトレーニングしたモデルの性能指標の相違が最小限に抑えられることを示す実験的な証拠を示す。
論文 参考訳(メタデータ) (2023-07-04T18:37:11Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Gradient-based Data Subversion Attack Against Binary Classifiers [9.414651358362391]
本研究では,攻撃者がラベルのラベルに毒を盛り,システムの機能を損なうようなラベル汚染攻撃に焦点を当てる。
我々は、予測ラベルに対する微分可能凸損失関数の勾配をウォームスタートとして利用し、汚染するデータインスタンスの集合を見つけるための異なる戦略を定式化する。
本実験は,提案手法がベースラインより優れ,計算効率が高いことを示す。
論文 参考訳(メタデータ) (2021-05-31T09:04:32Z) - Self-Tuning for Data-Efficient Deep Learning [75.34320911480008]
セルフチューニングは、データ効率のよいディープラーニングを可能にする新しいアプローチである。
ラベル付きおよびラベルなしデータの探索と事前訓練されたモデルの転送を統一する。
SSLとTLの5つのタスクをシャープなマージンで上回ります。
論文 参考訳(メタデータ) (2021-02-25T14:56:19Z) - Decentralized Federated Learning Preserves Model and Data Privacy [77.454688257702]
我々は、訓練されたモデル間で知識を共有することができる、完全に分散化されたアプローチを提案する。
生徒は、合成された入力データを通じて教師の出力を訓練する。
その結果,教師が学習した未学習学生モデルが,教師と同等のF1スコアに達することがわかった。
論文 参考訳(メタデータ) (2021-02-01T14:38:54Z) - Data Impressions: Mining Deep Models to Extract Samples for Data-free
Applications [26.48630545028405]
データインプレッションはトレーニングデータのプロキシとして機能し、さまざまなタスクを実現するために使用することができる。
いくつかのコンピュータビジョンタスクにおけるデータインプレッションの適用性を示す。
論文 参考訳(メタデータ) (2021-01-15T11:37:29Z) - Knowledge-Enriched Distributional Model Inversion Attacks [49.43828150561947]
モデルインバージョン(MI)攻撃は、モデルパラメータからトレーニングデータを再構成することを目的としている。
本稿では,パブリックデータからプライベートモデルに対する攻撃を行うのに役立つ知識を抽出する,新しい反転型GANを提案する。
実験の結果,これらの手法を組み合わせることで,最先端MI攻撃の成功率を150%向上させることができることがわかった。
論文 参考訳(メタデータ) (2020-10-08T16:20:48Z) - STAN: Synthetic Network Traffic Generation with Generative Neural Models [10.54843182184416]
本稿では,現実的な合成ネットワークトラフィックデータセットを生成するためのSTAN(Synthetic Network Traffic Generation with Autoregressive Neural Model)を提案する。
私たちの新しいニューラルアーキテクチャは、常に属性間の時間的依存関係と依存の両方をキャプチャします。
我々は、シミュレーションデータセットと実ネットワークトラフィックデータセットの両方で、STANの性能を、データの品質の観点から評価する。
論文 参考訳(メタデータ) (2020-09-27T04:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。