論文の概要: Did You Train on My Dataset? Towards Public Dataset Protection with
Clean-Label Backdoor Watermarking
- arxiv url: http://arxiv.org/abs/2303.11470v2
- Date: Mon, 10 Apr 2023 06:21:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 20:15:13.586127
- Title: Did You Train on My Dataset? Towards Public Dataset Protection with
Clean-Label Backdoor Watermarking
- Title(参考訳): 私のデータセットでトレーニングしたの?
クリーンラベルバックドア透かしによる公共データセット保護に向けて
- Authors: Ruixiang Tang, Qizhang Feng, Ninghao Liu, Fan Yang, Xia Hu
- Abstract要約: 本稿では,公開データの保護のための一般的な枠組みとして機能するバックドアベースの透かし手法を提案する。
データセットに少数の透かしサンプルを挿入することにより、我々のアプローチは、ディフェンダーが設定した秘密関数を暗黙的に学習することを可能にする。
この隠れた機能は、データセットを違法に使用するサードパーティモデルを追跡するための透かしとして使用できる。
- 参考スコア(独自算出の注目度): 54.40184736491652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The huge supporting training data on the Internet has been a key factor in
the success of deep learning models. However, this abundance of
public-available data also raises concerns about the unauthorized exploitation
of datasets for commercial purposes, which is forbidden by dataset licenses. In
this paper, we propose a backdoor-based watermarking approach that serves as a
general framework for safeguarding public-available data. By inserting a small
number of watermarking samples into the dataset, our approach enables the
learning model to implicitly learn a secret function set by defenders. This
hidden function can then be used as a watermark to track down third-party
models that use the dataset illegally. Unfortunately, existing backdoor
insertion methods often entail adding arbitrary and mislabeled data to the
training set, leading to a significant drop in performance and easy detection
by anomaly detection algorithms. To overcome this challenge, we introduce a
clean-label backdoor watermarking framework that uses imperceptible
perturbations to replace mislabeled samples. As a result, the watermarking
samples remain consistent with the original labels, making them difficult to
detect. Our experiments on text, image, and audio datasets demonstrate that the
proposed framework effectively safeguards datasets with minimal impact on
original task performance. We also show that adding just 1% of watermarking
samples can inject a traceable watermarking function and that our watermarking
samples are stealthy and look benign upon visual inspection.
- Abstract(参考訳): インターネット上の巨大なトレーニングデータのサポートは、ディープラーニングモデルの成功の重要な要因となっている。
しかし、この公開データの豊富さは、データセットライセンスによって禁止される商用目的のデータセットの不正な利用に関する懸念を引き起こす。
本稿では,公開データを保護するための汎用フレームワークとして,バックドアベースの透かし手法を提案する。
データセットに少数のウォーターマーキングサンプルを挿入することで、学習モデルがディフェンダーが設定した秘密関数を暗黙的に学習することができる。
この隠れた機能は、データセットを違法に使用するサードパーティモデルを追跡するための透かしとして使用できる。
残念ながら、既存のバックドア挿入手法では、トレーニングセットに任意のラベル付きデータを追加し、パフォーマンスが大幅に低下し、異常検出アルゴリズムによる検出が容易になった。
この課題を克服するために,不感な摂動を用いて誤ラベルされたサンプルを置き換えるクリーンラベルバックドア透かしフレームワークを導入する。
結果として、透かしのサンプルは元のラベルと一致し続け、検出が困難になる。
テキスト、画像、オーディオデータセットに関する実験により、提案フレームワークは、元のタスクパフォーマンスに最小限の影響でデータセットを効果的に保護することを示した。
また、透かしサンプルを1%加えるだけで、トレーサブルな透かし機能を注入でき、透かしサンプルは視覚検査でステルスで良さそうに見えます。
関連論文リスト
- Data Taggants: Dataset Ownership Verification via Harmless Targeted Data Poisoning [12.80649024603656]
本稿では,非バックドアデータセットのオーナシップ検証技術であるデータタグを新たに導入する。
我々は、VTモデルとResNetモデルと最先端のトレーニングレシピを用いて、ImageNet1kの包括的で現実的な実験を通してアプローチを検証する。
論文 参考訳(メタデータ) (2024-10-09T12:49:23Z) - PointNCBW: Towards Dataset Ownership Verification for Point Clouds via Negative Clean-label Backdoor Watermark [20.746346834429925]
我々は,点雲に対するクリーンラベルバックドアベースのデータセット透かしを提案し,有効性とステルス性の両方を保証する。
我々は、トリガーパターンを挿入する前に、形状的にも点的にも非ターゲットカテゴリの点雲を摂動する。
そのため、ウォーターマークされたデータセットでトレーニングされたモデルには、独特だがステルス的なバックドアの挙動がある。
論文 参考訳(メタデータ) (2024-08-10T09:31:58Z) - TabularMark: Watermarking Tabular Datasets for Machine Learning [20.978995194849297]
仮説テストに基づく透かし方式であるTabularMarkを提案する。
データノイズパーティショニングは、埋め込み中のデータ摂動に利用される。
実世界のデータセットと合成データセットの実験は、検出性、非侵入性、堅牢性においてTabularMarkの優位性を示している。
論文 参考訳(メタデータ) (2024-06-21T02:58:45Z) - Proving membership in LLM pretraining data via data watermarks [20.57538940552033]
この研究は、ブラックボックスモデルアクセスのみで原則付き検出を可能にするために、データ透かしを使うことを提案する。
ランダムなシーケンスを挿入する2つの透かしと、Unicodeに似た文字をランダムに置換する2つの透かしについて検討する。
BLOOM-176Bのトレーニングデータから,少なくとも90回はハッシュを確実に検出できることを示す。
論文 参考訳(メタデータ) (2024-02-16T18:49:27Z) - ClearMark: Intuitive and Robust Model Watermarking via Transposed Model
Training [50.77001916246691]
本稿では,人間の直感的な評価を目的とした最初のDNN透かし手法であるClearMarkを紹介する。
ClearMarkは目に見える透かしを埋め込んで、厳格な値閾値なしで人間の意思決定を可能にする。
8,544ビットの透かし容量は、現存する最強の作品に匹敵する。
論文 参考訳(メタデータ) (2023-10-25T08:16:55Z) - Domain Watermark: Effective and Harmless Dataset Copyright Protection is
Closed at Hand [96.26251471253823]
バックドアベースのデータセットオーナシップ検証(DOV)は現在、オープンソースデータセットの著作権を保護するための唯一の実現可能なアプローチである。
我々は、(保護されたデータセットでトレーニングされた)ウォーターマークされたモデルを、良質なモデルによって誤って分類されるであろう、いくつかの難しい'サンプルを正しく分類する。
論文 参考訳(メタデータ) (2023-10-09T11:23:05Z) - Untargeted Backdoor Watermark: Towards Harmless and Stealthy Dataset
Copyright Protection [69.59980270078067]
我々は,異常なモデル行動が決定論的でない,未目標のバックドア透かし方式を探索する。
また、提案した未ターゲットのバックドア透かしをデータセットのオーナシップ検証に利用する方法について論じる。
論文 参考訳(メタデータ) (2022-09-27T12:56:56Z) - Black-box Dataset Ownership Verification via Backdoor Watermarking [67.69308278379957]
我々は、リリースデータセットの保護を、(目立たしい)サードパーティモデルのトレーニングに採用されているかどうかの検証として定式化する。
バックドアの透かしを通じて外部パターンを埋め込んでオーナシップの検証を行い,保護することを提案する。
具体的には、有毒なバックドア攻撃(例えばBadNets)をデータセットのウォーターマーキングに利用し、データセット検証のための仮説テストガイダンスメソッドを設計する。
論文 参考訳(メタデータ) (2022-08-04T05:32:20Z) - Open-sourced Dataset Protection via Backdoor Watermarking [87.15630326131901]
本稿では,オープンソースの画像分類データセットを保護するために,Emphbackdoor Embeddingベースのデータセット透かし手法を提案する。
疑わしい第三者モデルによって生成される後続確率に基づいて,仮説テストガイド法を用いてデータセット検証を行う。
論文 参考訳(メタデータ) (2020-10-12T16:16:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。