Fugu-MT 論文翻訳(概要): Catch Me if You Can: Detecting Unauthorized Data Use in Deep Learning Models

論文の概要: Catch Me if You Can: Detecting Unauthorized Data Use in Deep Learning Models

arxiv url: http://arxiv.org/abs/2409.06280v1
Date: Tue, 10 Sep 2024 07:31:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-11 18:40:09.152453
Title: Catch Me if You Can: Detecting Unauthorized Data Use in Deep Learning Models
Title（参考訳）: Catch me if you can: Detecting Unauthorized Data Use in Deep Learning Models
Authors: Zitao Chen, Karthik Pattabiraman,
Abstract要約: ユーザは、自分のデータが自分の同意なしにDLモデルのトレーニングに使用されるかどうかを、限定的にコントロールすることが多い。この研究は、実践的なデータ証明ツールである MembershipTracker を提案する。 MembershipTrackerは、ターゲットデータを小さく、ターゲットとする変更でマークする軽量なデータマーキングコンポーネントで構成されている。
参考スコア（独自算出の注目度）: 5.724311218570013
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rise of deep learning (DL) has led to a surging demand for training data, which incentivizes the creators of DL models to trawl through the Internet for training materials. Meanwhile, users often have limited control over whether their data (e.g., facial images) are used to train DL models without their consent, which has engendered pressing concerns. This work proposes MembershipTracker, a practical data provenance tool that can empower ordinary users to take agency in detecting the unauthorized use of their data in training DL models. We view tracing data provenance through the lens of membership inference (MI). MembershipTracker consists of a lightweight data marking component to mark the target data with small and targeted changes, which can be strongly memorized by the model trained on them; and a specialized MI-based verification process to audit whether the model exhibits strong memorization on the target samples. Overall, MembershipTracker only requires the users to mark a small fraction of data (0.005% to 0.1% in proportion to the training set), and it enables the users to reliably detect the unauthorized use of their data (average 0% FPR@100% TPR). We show that MembershipTracker is highly effective across various settings, including industry-scale training on the full-size ImageNet-1k dataset. We finally evaluate MembershipTracker under multiple classes of countermeasures.
Abstract（参考訳）: 深層学習(DL)の台頭により、学習データに対する需要が急増し、DLモデルの作成者がインターネットを旅して教材を訓練するインセンティブがもたらされた。一方、ユーザーは、自分のデータ(例えば、顔画像)が、同意なしにDLモデルを訓練するために使用されるかどうかを限定的にコントロールすることが多い。本研究は,一般ユーザに対して,DLモデルのトレーニングにおいて,データの不正使用を検知する権限を付与する,実践的なデータ証明ツールである MembershipTracker を提案する。我々は、メンバーシップ推論(MI)のレンズを通して、追跡データの出所を見ることができる。 MembershipTrackerは、ターゲットデータを小さく、ターゲットとする変更でマークする軽量なデータマーキングコンポーネントで構成され、トレーニングしたモデルによって強く記憶される。全体として、CommanshipTrackerは、少数のデータ(トレーニングセットに比して0.005%から0.1%)をマークするだけでよい。 MembershipTrackerは、フルサイズのImageNet-1kデータセットの業界規模のトレーニングなど、さまざまな設定で非常に効果的であることを示す。最終的に、複数の対策のクラスでCommanshipTrackerを評価した。

関連論文リスト

Federated Learning with Unlabeled Clients: Personalization Can Happen in Low Dimensions [16.161876130822396]
FLowDUPは、ラベルのないデータを持つフォワードパスのみを使用してパーソナライズされたモデルを生成することができる。新たなトランスダクティブマルチタスク PAC-Bayesian 一般化バウンダリは、ラベルのないクライアントに対して性能保証を提供する。
論文参考訳（メタデータ） (2025-05-21T14:30:59Z)
Information-Guided Identification of Training Data Imprint in (Proprietary) Large Language Models [52.439289085318634]
情報誘導プローブを用いて,プロプライエタリな大規模言語モデル (LLM) で知られているトレーニングデータを識別する方法を示す。我々の研究は、重要な観察の上に成り立っている: 高次数テキストパスは、暗記プローブにとって良い検索材料である。
論文参考訳（メタデータ） (2025-03-15T10:19:15Z)
Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data [54.934578742209716]
現実世界のNLPアプリケーションでは、Large Language Models (LLMs) は巨大なデータセットの広範なトレーニングのために、有望なソリューションを提供する。 LLKDは、教師と学生の両方の信号を組み込んだ適応的なサンプル選択法である。総合的な実験により,LLKDは高いデータ効率で,様々なデータセットで優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-11-12T18:57:59Z)
One-Shot Unlearning of Personal Identities [38.36863497458095]
O-UPI (One-Shot Unlearning of Personal Identities) は、トレーニングデータがアクセスできない場合の未学習モデルを評価する。 CelebAとCelebA-HQデータセットの忘れを、異なる学習セットサイズでベンチマークする。得られたサンプルとトレーニング時に使用するデータとの相違点がある場合,データ可用性が制限された場合,既存のアプローチは困難であることが示唆された。
論文参考訳（メタデータ） (2024-07-16T10:00:54Z)
A Method to Facilitate Membership Inference Attacks in Deep Learning Models [5.724311218570013]
我々は,従来の技術よりも厳格に強力な新たな会員推論攻撃を実演する。私たちの攻撃は、敵がすべてのトレーニングサンプルを確実に識別する権限を与えます。これらのモデルは、共通の会員プライバシー監査の下で、増幅された会員リークを効果的に偽装できることを示す。
論文参考訳（メタデータ） (2024-07-02T03:33:42Z)
GraphGuard: Detecting and Counteracting Training Data Misuse in Graph Neural Networks [69.97213941893351]
グラフデータ分析におけるグラフニューラルネットワーク(GNN)の出現は、モデルトレーニング中のデータ誤用に関する重要な懸念を引き起こしている。既存の手法は、データ誤用検出または緩和のいずれかに対応しており、主にローカルGNNモデル用に設計されている。本稿では,これらの課題に対処するため,GraphGuardという先駆的なアプローチを導入する。
論文参考訳（メタデータ） (2023-12-13T02:59:37Z)
Tools for Verifying Neural Models' Training Data [29.322899317216407]
The Proof-of-Training-Data”では、モデルトレーナーがモデルの重みを発生させたトレーニングデータの検証を納得させることができる。検証手順が多種多様な攻撃をキャッチできることを実験的に示す。
論文参考訳（メタデータ） (2023-07-02T23:27:00Z)
Data Isotopes for Data Provenance in DNNs [27.549744883427376]
トレーニング中にDNNに“spurious features”を導入することで、ユーザがIthronicsと呼ぶ特別なデータポイントを作成できることを示します。ユーザは、統計仮説テストを適用して、モデルが自分の同位体に関連する刺激的な特徴を学習したかどうかを、ユーザーのデータに基づいてトレーニングすることで検出することができる。その結果,複数設定で有効性を確認し,高い精度で数百の同位体の検出と識別を行った。
論文参考訳（メタデータ） (2022-08-29T21:28:35Z)
FedNST: Federated Noisy Student Training for Automatic Speech Recognition [8.277567852741242]
Federated Learning (FL)は、分散システムのユーザデバイス(クライアント)上で、最先端の自動音声認識(ASR)モデルをトレーニングすることを可能にする。 FL for ASRの実践的な採用に直面している主な課題は、クライアントの地味なラベルを取得することである。有望な代替手段は、セミ/セルフ教師付き学習アプローチを使用して、問題のないユーザデータを活用することだ。
論文参考訳（メタデータ） (2022-06-06T16:18:45Z)
Few-Cost Salient Object Detection with Adversarial-Paced Learning [95.0220555274653]
本稿では,少数のトレーニング画像にのみ手動アノテーションを応用して,効果的なサルエント物体検出モデルを学習することを提案する。我々は,このタスクを,少額の有能な物体検出とみなし,少数のコストの学習シナリオを促進するために,APL(Adversarialpaced Learning)ベースのフレームワークを提案する。
論文参考訳（メタデータ） (2021-04-05T14:15:49Z)
Unsupervised Noisy Tracklet Person Re-identification [100.85530419892333]
本稿では,非照合トラックレットデータから識別的人物再識別モデルを訓練できる選択的トラックレット学習(STL)手法を提案する。これにより、カメラビュー全体で人物の画像/トラックレットの真のマッチングペアを完全にラベル付けする面倒でコストのかかるプロセスが回避されます。提案手法は生トラックレットの任意のノイズデータに対して特に頑健であるため,制約のない追跡データから識別モデル学習にスケーラブルである。
論文参考訳（メタデータ） (2021-01-16T07:31:00Z)
Data Impressions: Mining Deep Models to Extract Samples for Data-free Applications [26.48630545028405]
データインプレッションはトレーニングデータのプロキシとして機能し、さまざまなタスクを実現するために使用することができる。いくつかのコンピュータビジョンタスクにおけるデータインプレッションの適用性を示す。
論文参考訳（メタデータ） (2021-01-15T11:37:29Z)
Self-Supervised Person Detection in 2D Range Data using a Calibrated Camera [83.31666463259849]
2次元LiDARに基づく人検出器のトレーニングラベル(擬似ラベル)を自動生成する手法を提案する。擬似ラベルで訓練または微調整された自己監視検出器が,手動アノテーションを用いて訓練された検出器を上回っていることを示した。私達の方法は付加的な分類の努力なしで配置の間に人の探知器を改善する有効な方法です。
論文参考訳（メタデータ） (2020-12-16T12:10:04Z)
Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文参考訳（メタデータ） (2020-01-06T13:37:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。