論文の概要: Catch Me if You Can: Detecting Unauthorized Data Use in Deep Learning Models
- arxiv url: http://arxiv.org/abs/2409.06280v2
- Date: Mon, 23 Dec 2024 02:44:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:52:13.934660
- Title: Catch Me if You Can: Detecting Unauthorized Data Use in Deep Learning Models
- Title(参考訳): Catch me if you can: Detecting Unauthorized Data Use in Deep Learning Models
- Authors: Zitao Chen, Karthik Pattabiraman,
- Abstract要約: 深層学習(DL)の台頭により、学習データに対する需要が急増し、DLモデルの作成者がインターネットを旅して教材を訓練するインセンティブがもたらされた。
ユーザは、自分のデータが自分の同意なしにDLモデルのトレーニングに使用されるかどうかを、限定的にコントロールすることが多い。
この研究は、一般ユーザーがデータの不正使用を確実に検出できる実用的なデータ監査ツールである MembershipTracker を提案する。
- 参考スコア(独自算出の注目度): 5.724311218570013
- License:
- Abstract: The rise of deep learning (DL) has led to a surging demand for training data, which incentivizes the creators of DL models to trawl through the Internet for training materials. Meanwhile, users often have limited control over whether their data (e.g., facial images) are used to train DL models without their consent, which has engendered pressing concerns. This work proposes MembershipTracker, a practical data auditing tool that can empower ordinary users to reliably detect the unauthorized use of their data in training DL models. We view data auditing through the lens of membership inference (MI). MembershipTracker consists of a lightweight data marking component to mark the target data with small and targeted changes, which can be strongly memorized by the model trained on them; and a specialized MI-based verification process to audit whether the model exhibits strong memorization on the target samples. MembershipTracker only requires the users to mark a small fraction of data (0.005% to 0.1% in proportion to the training set), and it enables the users to reliably detect the unauthorized use of their data (average 0% FPR@100% TPR). We show that MembershipTracker is highly effective across various settings, including industry-scale training on the full-size ImageNet-1k dataset. We finally evaluate MembershipTracker under multiple classes of countermeasures.
- Abstract(参考訳): 深層学習(DL)の台頭により、学習データに対する需要が急増し、DLモデルの作成者がインターネットを旅して教材を訓練するインセンティブがもたらされた。
一方、ユーザーは、自分のデータ(例えば、顔画像)が、同意なしにDLモデルを訓練するために使用されるかどうかを限定的にコントロールすることが多い。
本研究は,一般ユーザに対してDLモデルのトレーニングにおいて,不正なデータの使用を確実に検出する,実用的なデータ監査ツールである MembershipTracker を提案する。
メンバーシップ推論(MI)のレンズを通してデータ監査を行う。
MembershipTrackerは、ターゲットデータを小さく、ターゲットとする変更でマークする軽量なデータマーキングコンポーネントで構成され、トレーニングしたモデルによって強く記憶される。
MembershipTrackerは、少数のデータ(トレーニングセットに比して0.005%から0.1%)をマークするだけでよい。
MembershipTrackerは、フルサイズのImageNet-1kデータセットの業界規模のトレーニングなど、さまざまな設定で非常に効果的であることを示す。
最終的に、複数の対策のクラスでCommanshipTrackerを評価した。
関連論文リスト
- Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data [54.934578742209716]
現実世界のNLPアプリケーションでは、Large Language Models (LLMs) は巨大なデータセットの広範なトレーニングのために、有望なソリューションを提供する。
LLKDは、教師と学生の両方の信号を組み込んだ適応的なサンプル選択法である。
総合的な実験により,LLKDは高いデータ効率で,様々なデータセットで優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-11-12T18:57:59Z) - One-Shot Unlearning of Personal Identities [38.36863497458095]
O-UPI (One-Shot Unlearning of Personal Identities) は、トレーニングデータがアクセスできない場合の未学習モデルを評価する。
CelebAとCelebA-HQデータセットの忘れを、異なる学習セットサイズでベンチマークする。
得られたサンプルとトレーニング時に使用するデータとの相違点がある場合,データ可用性が制限された場合,既存のアプローチは困難であることが示唆された。
論文 参考訳(メタデータ) (2024-07-16T10:00:54Z) - GraphGuard: Detecting and Counteracting Training Data Misuse in Graph
Neural Networks [69.97213941893351]
グラフデータ分析におけるグラフニューラルネットワーク(GNN)の出現は、モデルトレーニング中のデータ誤用に関する重要な懸念を引き起こしている。
既存の手法は、データ誤用検出または緩和のいずれかに対応しており、主にローカルGNNモデル用に設計されている。
本稿では,これらの課題に対処するため,GraphGuardという先駆的なアプローチを導入する。
論文 参考訳(メタデータ) (2023-12-13T02:59:37Z) - Tools for Verifying Neural Models' Training Data [29.322899317216407]
The Proof-of-Training-Data”では、モデルトレーナーがモデルの重みを発生させたトレーニングデータの検証を納得させることができる。
検証手順が多種多様な攻撃をキャッチできることを実験的に示す。
論文 参考訳(メタデータ) (2023-07-02T23:27:00Z) - Data Isotopes for Data Provenance in DNNs [27.549744883427376]
トレーニング中にDNNに“spurious features”を導入することで、ユーザがIthronicsと呼ぶ特別なデータポイントを作成できることを示します。
ユーザは、統計仮説テストを適用して、モデルが自分の同位体に関連する刺激的な特徴を学習したかどうかを、ユーザーのデータに基づいてトレーニングすることで検出することができる。
その結果,複数設定で有効性を確認し,高い精度で数百の同位体の検出と識別を行った。
論文 参考訳(メタデータ) (2022-08-29T21:28:35Z) - FedNST: Federated Noisy Student Training for Automatic Speech
Recognition [8.277567852741242]
Federated Learning (FL)は、分散システムのユーザデバイス(クライアント)上で、最先端の自動音声認識(ASR)モデルをトレーニングすることを可能にする。
FL for ASRの実践的な採用に直面している主な課題は、クライアントの地味なラベルを取得することである。
有望な代替手段は、セミ/セルフ教師付き学習アプローチを使用して、問題のないユーザデータを活用することだ。
論文 参考訳(メタデータ) (2022-06-06T16:18:45Z) - Few-Cost Salient Object Detection with Adversarial-Paced Learning [95.0220555274653]
本稿では,少数のトレーニング画像にのみ手動アノテーションを応用して,効果的なサルエント物体検出モデルを学習することを提案する。
我々は,このタスクを,少額の有能な物体検出とみなし,少数のコストの学習シナリオを促進するために,APL(Adversarialpaced Learning)ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-05T14:15:49Z) - Unsupervised Noisy Tracklet Person Re-identification [100.85530419892333]
本稿では,非照合トラックレットデータから識別的人物再識別モデルを訓練できる選択的トラックレット学習(STL)手法を提案する。
これにより、カメラビュー全体で人物の画像/トラックレットの真のマッチングペアを完全にラベル付けする面倒でコストのかかるプロセスが回避されます。
提案手法は生トラックレットの任意のノイズデータに対して特に頑健であるため,制約のない追跡データから識別モデル学習にスケーラブルである。
論文 参考訳(メタデータ) (2021-01-16T07:31:00Z) - Data Impressions: Mining Deep Models to Extract Samples for Data-free
Applications [26.48630545028405]
データインプレッションはトレーニングデータのプロキシとして機能し、さまざまなタスクを実現するために使用することができる。
いくつかのコンピュータビジョンタスクにおけるデータインプレッションの適用性を示す。
論文 参考訳(メタデータ) (2021-01-15T11:37:29Z) - Self-Supervised Person Detection in 2D Range Data using a Calibrated
Camera [83.31666463259849]
2次元LiDARに基づく人検出器のトレーニングラベル(擬似ラベル)を自動生成する手法を提案する。
擬似ラベルで訓練または微調整された自己監視検出器が,手動アノテーションを用いて訓練された検出器を上回っていることを示した。
私達の方法は付加的な分類の努力なしで配置の間に人の探知器を改善する有効な方法です。
論文 参考訳(メタデータ) (2020-12-16T12:10:04Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。