論文の概要: Open-sourced Dataset Protection via Backdoor Watermarking
- arxiv url: http://arxiv.org/abs/2010.05821v3
- Date: Thu, 19 Nov 2020 04:51:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 05:30:08.526860
- Title: Open-sourced Dataset Protection via Backdoor Watermarking
- Title(参考訳): バックドア透かしによるオープンソースのデータセット保護
- Authors: Yiming Li, Ziqi Zhang, Jiawang Bai, Baoyuan Wu, Yong Jiang, Shu-Tao
Xia
- Abstract要約: 本稿では,オープンソースの画像分類データセットを保護するために,Emphbackdoor Embeddingベースのデータセット透かし手法を提案する。
疑わしい第三者モデルによって生成される後続確率に基づいて,仮説テストガイド法を用いてデータセット検証を行う。
- 参考スコア(独自算出の注目度): 87.15630326131901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of deep learning has benefited from the release of some
high-quality open-sourced datasets ($e.g.$, ImageNet), which allows researchers
to easily verify the effectiveness of their algorithms. Almost all existing
open-sourced datasets require that they can only be adopted for academic or
educational purposes rather than commercial purposes, whereas there is still no
good way to protect them. In this paper, we propose a \emph{backdoor embedding
based dataset watermarking} method to protect an open-sourced
image-classification dataset by verifying whether it is used for training a
third-party model. Specifically, the proposed method contains two main
processes, including \emph{dataset watermarking} and \emph{dataset
verification}. We adopt classical poisoning-based backdoor attacks ($e.g.$,
BadNets) for dataset watermarking, ie, generating some poisoned samples by
adding a certain trigger ($e.g.$, a local patch) onto some benign samples,
labeled with a pre-defined target class. Based on the proposed backdoor-based
watermarking, we use a hypothesis test guided method for dataset verification
based on the posterior probability generated by the suspicious third-party
model of the benign samples and their correspondingly watermarked samples
($i.e.$, images with trigger) on the target class. Experiments on some
benchmark datasets are conducted, which verify the effectiveness of the
proposed method.
- Abstract(参考訳): ディープラーニングの急速な発展は、研究者がアルゴリズムの有効性を簡単に検証できる高品質なオープンソースデータセット(例:ImageNet)のリリースから恩恵を受けている。
既存のほとんどすべてのオープンソースデータセットは、商業目的ではなく、学術目的や教育目的にのみ適用する必要があるが、それでもそれらを保護するよい方法はない。
本稿では,オープンソース画像分類データセットを,サードパーティモデルのトレーニングに使用するかどうかを検証することで保護する手法である \emph{backdoor embedded based dataset watermarking} を提案する。
具体的には,提案手法は, \emph{dataset watermarking} と \emph{dataset verification} の2つの主要なプロセスを含む。
私たちは、古典的な中毒ベースのバックドア攻撃(例えば$、badnets)をデータセットのウォーターマーキングに採用し、事前に定義されたターゲットクラスでラベル付けされたいくつかの良質なサンプルに特定のトリガー(例えば$、ローカルパッチ)を追加することで、いくつかの毒サンプルを生成します。
提案するバックドアに基づく透かし法に基づいて,良性サンプルの疑わしいサードパーティモデルとそれに対応する透かし付きサンプル(トリガー付き画像)が生成した後方確率に基づいて,データセット検証のための仮説テストを行った。
提案手法の有効性を検証するため,いくつかのベンチマークデータセットの実験を行った。
関連論文リスト
- Domain Watermark: Effective and Harmless Dataset Copyright Protection is
Closed at Hand [96.26251471253823]
バックドアベースのデータセットオーナシップ検証(DOV)は現在、オープンソースデータセットの著作権を保護するための唯一の実現可能なアプローチである。
我々は、(保護されたデータセットでトレーニングされた)ウォーターマークされたモデルを、良質なモデルによって誤って分類されるであろう、いくつかの難しい'サンプルを正しく分類する。
論文 参考訳(メタデータ) (2023-10-09T11:23:05Z) - Did You Train on My Dataset? Towards Public Dataset Protection with
Clean-Label Backdoor Watermarking [54.40184736491652]
本稿では,公開データの保護のための一般的な枠組みとして機能するバックドアベースの透かし手法を提案する。
データセットに少数の透かしサンプルを挿入することにより、我々のアプローチは、ディフェンダーが設定した秘密関数を暗黙的に学習することを可能にする。
この隠れた機能は、データセットを違法に使用するサードパーティモデルを追跡するための透かしとして使用できる。
論文 参考訳(メタデータ) (2023-03-20T21:54:30Z) - Untargeted Backdoor Watermark: Towards Harmless and Stealthy Dataset
Copyright Protection [69.59980270078067]
我々は,異常なモデル行動が決定論的でない,未目標のバックドア透かし方式を探索する。
また、提案した未ターゲットのバックドア透かしをデータセットのオーナシップ検証に利用する方法について論じる。
論文 参考訳(メタデータ) (2022-09-27T12:56:56Z) - Black-box Dataset Ownership Verification via Backdoor Watermarking [67.69308278379957]
我々は、リリースデータセットの保護を、(目立たしい)サードパーティモデルのトレーニングに採用されているかどうかの検証として定式化する。
バックドアの透かしを通じて外部パターンを埋め込んでオーナシップの検証を行い,保護することを提案する。
具体的には、有毒なバックドア攻撃(例えばBadNets)をデータセットのウォーターマーキングに利用し、データセット検証のための仮説テストガイダンスメソッドを設計する。
論文 参考訳(メタデータ) (2022-08-04T05:32:20Z) - On the Effectiveness of Dataset Watermarking in Adversarial Settings [14.095584034871658]
機械学習(ML)モデルのトレーニングに使用される(画像)データセットのオーナシップを実証するために,提案手法である放射能データについて検討する。
本研究では, 放射能データによるモデル抽出攻撃を効果的に回避できることを示し, モデル抽出に対して頑健なMLモデルのオーナシップ検証に使用できる可能性を示した。
論文 参考訳(メタデータ) (2022-02-25T05:51:53Z) - Intrinsic Certified Robustness of Bagging against Data Poisoning Attacks [75.46678178805382]
emphdata中毒攻撃では、攻撃者は学習した機械学習モデルを破損させるためにいくつかのトレーニング例を変更し、削除し、または挿入する。
データ中毒攻撃に対するバッグングの本質的確固たる堅牢性を証明する。
本手法は, 任意の修正, 削除, 挿入を行う場合, MNIST 上で 911.1% の精度を達成している。
論文 参考訳(メタデータ) (2020-08-11T03:12:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。