Fugu-MT 論文翻訳(概要): From Zero to Hero: Detecting Leaked Data through Synthetic Data Injection and Model Querying

論文の概要: From Zero to Hero: Detecting Leaked Data through Synthetic Data Injection and Model Querying

arxiv url: http://arxiv.org/abs/2310.04145v1
Date: Fri, 6 Oct 2023 10:36:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-09 21:01:22.983186
Title: From Zero to Hero: Detecting Leaked Data through Synthetic Data Injection and Model Querying
Title（参考訳）: ZeroからHero: 合成データ注入とモデルクエリによる漏洩データ検出
Authors: Biao Wu, Qiang Huang, Anthony K. H. Tung
Abstract要約: 局所分布シフト合成(textscLDSS)は,分類モデルの訓練に使用される漏洩データを検出する新しい手法である。 textscLDSSは、Naive Bayes、Decision Tree、Random Forestといった様々な分類モデルと互換性がある。 5つの実世界のデータセットにまたがる7種類の分類モデルについて広範な実験を行った。
参考スコア（独自算出の注目度）: 12.272239607545089
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Safeguarding the Intellectual Property (IP) of data has become critically important as machine learning applications continue to proliferate, and their success heavily relies on the quality of training data. While various mechanisms exist to secure data during storage, transmission, and consumption, fewer studies have been developed to detect whether they are already leaked for model training without authorization. This issue is particularly challenging due to the absence of information and control over the training process conducted by potential attackers. In this paper, we concentrate on the domain of tabular data and introduce a novel methodology, Local Distribution Shifting Synthesis (\textsc{LDSS}), to detect leaked data that are used to train classification models. The core concept behind \textsc{LDSS} involves injecting a small volume of synthetic data--characterized by local shifts in class distribution--into the owner's dataset. This enables the effective identification of models trained on leaked data through model querying alone, as the synthetic data injection results in a pronounced disparity in the predictions of models trained on leaked and modified datasets. \textsc{LDSS} is \emph{model-oblivious} and hence compatible with a diverse range of classification models, such as Naive Bayes, Decision Tree, and Random Forest. We have conducted extensive experiments on seven types of classification models across five real-world datasets. The comprehensive results affirm the reliability, robustness, fidelity, security, and efficiency of \textsc{LDSS}.
Abstract（参考訳）: 機械学習アプリケーションの普及が続けば、データの知的財産権(IP)の保護は極めて重要になり、その成功はトレーニングデータの質に大きく依存している。ストレージ、送信、消費の間にデータを保護するための様々なメカニズムが存在するが、認可なくモデルトレーニングのために既に漏洩しているかどうかを検出する研究は少ない。この問題は、潜在的な攻撃者が行うトレーニングプロセスに関する情報や制御がないため、特に困難である。本稿では,表データの領域に集中して,分類モデルの学習に使用される漏洩データを検出するための新しい手法であるローカル分散シフト合成(\textsc{LDSS})を導入する。 textsc{LDSS}の背景にある中核的な概念は、少量の合成データ(クラス分布の局所的なシフトによって特徴付けられる)を所有者のデータセットに注入することである。これにより、合成データインジェクションは、リークおよび修正データセットでトレーニングされたモデルの予測において、明らかな相違をもたらすため、モデルクエリだけで、リークデータでトレーニングされたモデルの効果的な識別が可能になる。 textsc{LDSS} は \emph{model-oblivious} であり、それゆえに Naive Bayes、Decision Tree、Random Forest などの様々な分類モデルと互換性がある。 5つの実世界のデータセットにまたがる7種類の分類モデルについて広範な実験を行った。包括的結果は \textsc{ldss} の信頼性、堅牢性、忠実性、安全性、効率性を保証する。

関連論文リスト

Osmosis Distillation: Model Hijacking with the Fewest Samples [27.65508058446939]
データセット蒸留法によって生成された合成データセットを用いたトランスファーラーニングにおいて、非無視のセキュリティ脅威が発見されていない。最少サンプルを用いたディープラーニングモデルをターゲットにした新しいモデルハイジャック戦略であるOsmosis Distillation (OD) 攻撃を提案する。我々は、伝達学習にサードパーティの合成データセットを使用することの意識を高める必要があると論じている。
論文参考訳（メタデータ） (2026-03-05T06:34:06Z)
Crucial-Diff: A Unified Diffusion Model for Crucial Image and Annotation Synthesis in Data-scarce Scenarios [65.97836905826145]
医療、産業、自動運転といったさまざまなシナリオにおけるデータの不足は、モデルの過度な適合とデータセットの不均衡につながる。重要なサンプルを合成するドメインに依存しないフレームワークであるCrucial-Diffを提案する。我々のフレームワークは多様な高品質なトレーニングデータを生成し、ピクセルレベルのAPは83.63%、F1-MAXは78.12%である。
論文参考訳（メタデータ） (2025-07-14T04:41:38Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-10-04T13:39:21Z)
Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文参考訳（メタデータ） (2024-07-26T10:49:14Z)
Releasing Malevolence from Benevolence: The Menace of Benign Data on Machine Unlearning [28.35038726318893]
大量の実データや合成データに基づいてトレーニングされた機械学習モデルは、様々な領域で優れた予測性能を達成する。プライバシの懸念に対処するため、モデルから特定のデータサンプルを削除するために、機械学習が提案されている。本研究では,データ配信情報を少量の良質なデータ集合に抽出するために,Unlearning Usability Attackを導入する。
論文参考訳（メタデータ） (2024-07-06T15:42:28Z)
Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-22T02:12:08Z)
Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。このようなモデルは大きい傾向があり、訓練データの総量を必要とする。人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文参考訳（メタデータ） (2023-11-02T01:51:43Z)
SCME: A Self-Contrastive Method for Data-free and Query-Limited Model Extraction Attack [18.998300969035885]
モデル抽出は、代替モデル上で逆例を生成することによって、ターゲットモデルを騙す。本稿では,偽データの合成におけるクラス間およびクラス内多様性を考慮した,SCME という新しいデータフリーモデル抽出手法を提案する。
論文参考訳（メタデータ） (2023-10-15T10:41:45Z)
Private Synthetic Data Meets Ensemble Learning [15.425653946755025]
機械学習モデルが合成データに基づいてトレーニングされ、実際のデータにデプロイされると、しばしばパフォーマンス低下が発生する。実データを用いた場合のパフォーマンス向上を目標として,下流モデルのトレーニングのための新たなアンサンブル戦略を導入する。
論文参考訳（メタデータ） (2023-10-15T04:24:42Z)
Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文参考訳（メタデータ） (2021-06-06T00:04:49Z)
Gradient-based Data Subversion Attack Against Binary Classifiers [9.414651358362391]
本研究では,攻撃者がラベルのラベルに毒を盛り,システムの機能を損なうようなラベル汚染攻撃に焦点を当てる。我々は、予測ラベルに対する微分可能凸損失関数の勾配をウォームスタートとして利用し、汚染するデータインスタンスの集合を見つけるための異なる戦略を定式化する。本実験は,提案手法がベースラインより優れ,計算効率が高いことを示す。
論文参考訳（メタデータ） (2021-05-31T09:04:32Z)
Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。 CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文参考訳（メタデータ） (2021-05-18T15:13:00Z)
Decentralized Federated Learning Preserves Model and Data Privacy [77.454688257702]
我々は、訓練されたモデル間で知識を共有することができる、完全に分散化されたアプローチを提案する。生徒は、合成された入力データを通じて教師の出力を訓練する。その結果,教師が学習した未学習学生モデルが,教師と同等のF1スコアに達することがわかった。
論文参考訳（メタデータ） (2021-02-01T14:38:54Z)
Data Impressions: Mining Deep Models to Extract Samples for Data-free Applications [26.48630545028405]
データインプレッションはトレーニングデータのプロキシとして機能し、さまざまなタスクを実現するために使用することができる。いくつかのコンピュータビジョンタスクにおけるデータインプレッションの適用性を示す。
論文参考訳（メタデータ） (2021-01-15T11:37:29Z)
STAN: Synthetic Network Traffic Generation with Generative Neural Models [10.54843182184416]
本稿では,現実的な合成ネットワークトラフィックデータセットを生成するためのSTAN(Synthetic Network Traffic Generation with Autoregressive Neural Model)を提案する。私たちの新しいニューラルアーキテクチャは、常に属性間の時間的依存関係と依存の両方をキャプチャします。我々は、シミュレーションデータセットと実ネットワークトラフィックデータセットの両方で、STANの性能を、データの品質の観点から評価する。
論文参考訳（メタデータ） (2020-09-27T04:20:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。