Fugu-MT 論文翻訳(概要): On the Effectiveness of Dataset Watermarking in Adversarial Settings

論文の概要: On the Effectiveness of Dataset Watermarking in Adversarial Settings

arxiv url: http://arxiv.org/abs/2202.12506v1
Date: Fri, 25 Feb 2022 05:51:53 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-28 22:26:50.804244
Title: On the Effectiveness of Dataset Watermarking in Adversarial Settings
Title（参考訳）: 逆設定におけるデータセット透かしの有効性について
Authors: Buse Gul Atli Tekgul, N. Asokan
Abstract要約: 機械学習(ML)モデルのトレーニングに使用される(画像)データセットのオーナシップを実証するために,提案手法である放射能データについて検討する。本研究では, 放射能データによるモデル抽出攻撃を効果的に回避できることを示し, モデル抽出に対して頑健なMLモデルのオーナシップ検証に使用できる可能性を示した。
参考スコア（独自算出の注目度）: 14.095584034871658
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In a data-driven world, datasets constitute a significant economic value. Dataset owners who spend time and money to collect and curate the data are incentivized to ensure that their datasets are not used in ways that they did not authorize. When such misuse occurs, dataset owners need technical mechanisms for demonstrating their ownership of the dataset in question. Dataset watermarking provides one approach for ownership demonstration which can, in turn, deter unauthorized use. In this paper, we investigate a recently proposed data provenance method, radioactive data, to assess if it can be used to demonstrate ownership of (image) datasets used to train machine learning (ML) models. The original paper reported that radioactive data is effective in white-box settings. We show that while this is true for large datasets with many classes, it is not as effective for datasets where the number of classes is low $(\leq 30)$ or the number of samples per class is low $(\leq 500)$. We also show that, counter-intuitively, the black-box verification technique is effective for all datasets used in this paper, even when white-box verification is not. Given this observation, we show that the confidence in white-box verification can be improved by using watermarked samples directly during the verification process. We also highlight the need to assess the robustness of radioactive data if it were to be used for ownership demonstration since it is an adversarial setting unlike provenance identification. Compared to dataset watermarking, ML model watermarking has been explored more extensively in recent literature. However, most of the model watermarking techniques can be defeated via model extraction. We show that radioactive data can effectively survive model extraction attacks, which raises the possibility that it can be used for ML model ownership verification robust against model extraction.
Abstract（参考訳）: データ駆動の世界では、データセットは重要な経済的価値を構成する。データの収集とキュレーションに時間と費用を費やしているデータセットオーナは、データセットが許可されていない方法で使用されていないことを保証するインセンティブを与えられる。このような誤用が発生した場合、データセット所有者は、問題のデータセットの所有権を示すための技術的なメカニズムを必要とする。データセットのウォーターマーキングは、オーナシップのデモのための1つのアプローチを提供する。本稿では,機械学習(ML)モデルのトレーニングに使用される(画像)データセットのオーナシップを実証するために,最近提案された放射能データである放射能データについて検討する。原論文では、放射性データはホワイトボックスの設定に有効であると報告されている。これは多くのクラスを持つ大規模データセットに当てはまるが、クラス数が低い(\leq 30)$またはクラス毎のサンプル数が低い(\leq 500)$であるようなデータセットでは有効ではない。また,ホワイトボックス検証がそうでなくても,ブラックボックス検証手法は,本論文で使用するすべてのデータセットに対して有効であることを示す。この結果から,ホワイトボックス検証の信頼性は,検証プロセス中に直接透かしサンプルを用いることで向上できることを示した。また,放射能データのロバスト性を評価する必要性についても強調する。データセットの透かしと比較すると、MLモデル透かしは近年広く研究されている。しかし、ほとんどのモデル透かし技術はモデル抽出によって打ち破ることができる。放射能データは,モデル抽出攻撃を効果的に生き残り,モデル抽出に対して頑健なmlモデルオーナシップ検証に使用できる可能性が示唆された。

関連論文リスト

Targeted Data Poisoning for Black-Box Audio Datasets Ownership Verification [12.80649024603656]
本稿では,最近導入されたデータタグ付け手法の音声データに適応する。データタグガントは、ニューラルネットワークが保護されたイメージデータセットでトレーニングされたかどうかを検証する方法である。提案手法は,性能を損なうことなく,高い信頼性でデータセットの使用を検出できることを示す。
論文参考訳（メタデータ） (2025-03-13T11:25:25Z)
CBW: Towards Dataset Ownership Verification for Speaker Verification via Clustering-based Backdoor Watermarking [85.68235482145091]
大規模音声データセットは貴重な知的財産となった。本稿では,新しいデータセットのオーナシップ検証手法を提案する。我々のアプローチはクラスタリングに基づくバックドア透かし(CBW)を導入している。我々は,ベンチマークデータセットに対する広範な実験を行い,本手法の有効性とロバスト性を検証した。
論文参考訳（メタデータ） (2025-03-02T02:02:57Z)
Data Taggants: Dataset Ownership Verification via Harmless Targeted Data Poisoning [12.80649024603656]
本稿では,非バックドアデータセットのオーナシップ検証技術であるデータタグを新たに導入する。我々は、VTモデルとResNetモデルと最先端のトレーニングレシピを用いて、ImageNet1kの包括的で現実的な実験を通してアプローチを検証する。
論文参考訳（メタデータ） (2024-10-09T12:49:23Z)
PointNCBW: Towards Dataset Ownership Verification for Point Clouds via Negative Clean-label Backdoor Watermark [20.746346834429925]
我々は,点雲に対するクリーンラベルバックドアベースのデータセット透かしを提案し,有効性とステルス性の両方を保証する。我々は、トリガーパターンを挿入する前に、形状的にも点的にも非ターゲットカテゴリの点雲を摂動する。そのため、ウォーターマークされたデータセットでトレーニングされたモデルには、独特だがステルス的なバックドアの挙動がある。
論文参考訳（メタデータ） (2024-08-10T09:31:58Z)
TabularMark: Watermarking Tabular Datasets for Machine Learning [20.978995194849297]
仮説テストに基づく透かし方式であるTabularMarkを提案する。データノイズパーティショニングは、埋め込み中のデータ摂動に利用される。実世界のデータセットと合成データセットの実験は、検出性、非侵入性、堅牢性においてTabularMarkの優位性を示している。
論文参考訳（メタデータ） (2024-06-21T02:58:45Z)
EnTruth: Enhancing the Traceability of Unauthorized Dataset Usage in Text-to-image Diffusion Models with Minimal and Robust Alterations [73.94175015918059]
本稿では、未承認のデータセット使用のトレーサビリティを高める新しいアプローチであるEnTruthを紹介する。テンプレートの暗記を戦略的に取り入れることで、EnTruthは不正なモデルの特定の振る舞いを侵害の証拠として引き起こすことができる。本手法は, 暗記の正当性を調査し, 著作権保護に利用し, 呪いを祝福する最初の方法である。
論文参考訳（メタデータ） (2024-06-20T02:02:44Z)
FreqyWM: Frequency Watermarking for the New Data Economy [8.51675079658644]
目に見えない透かしを符号化するためのデータセット内のいくつかのトークンの出現頻度を変調する新しい手法を提案する。このような透かしを作成し検証するアルゴリズムを最適かつ高速に開発する。
論文参考訳（メタデータ） (2023-12-27T12:17:59Z)
Domain Watermark: Effective and Harmless Dataset Copyright Protection is Closed at Hand [96.26251471253823]
バックドアベースのデータセットオーナシップ検証(DOV)は現在、オープンソースデータセットの著作権を保護するための唯一の実現可能なアプローチである。我々は、(保護されたデータセットでトレーニングされた)ウォーターマークされたモデルを、良質なモデルによって誤って分類されるであろう、いくつかの難しい'サンプルを正しく分類する。
論文参考訳（メタデータ） (2023-10-09T11:23:05Z)
Did You Train on My Dataset? Towards Public Dataset Protection with Clean-Label Backdoor Watermarking [54.40184736491652]
本稿では,公開データの保護のための一般的な枠組みとして機能するバックドアベースの透かし手法を提案する。データセットに少数の透かしサンプルを挿入することにより、我々のアプローチは、ディフェンダーが設定した秘密関数を暗黙的に学習することを可能にする。この隠れた機能は、データセットを違法に使用するサードパーティモデルを追跡するための透かしとして使用できる。
論文参考訳（メタデータ） (2023-03-20T21:54:30Z)
Black-box Dataset Ownership Verification via Backdoor Watermarking [67.69308278379957]
我々は、リリースデータセットの保護を、(目立たしい)サードパーティモデルのトレーニングに採用されているかどうかの検証として定式化する。バックドアの透かしを通じて外部パターンを埋め込んでオーナシップの検証を行い,保護することを提案する。具体的には、有毒なバックドア攻撃(例えばBadNets)をデータセットのウォーターマーキングに利用し、データセット検証のための仮説テストガイダンスメソッドを設計する。
論文参考訳（メタデータ） (2022-08-04T05:32:20Z)
Hidden Biases in Unreliable News Detection Datasets [60.71991809782698]
データ収集中の選択バイアスがデータセットの望ましくないアーティファクトにつながることを示す。クリーンスプリットでテストされたすべてのモデルに対して,列車/テストソースの重なりが無く,精度が大幅に低下した(>10%)。将来的なデータセット生成には、困難/バイアスプローブとしての単純なモデルと、クリーンな非重複サイトと日付分割を使用する将来のモデル開発が含まれることを提案する。
論文参考訳（メタデータ） (2021-04-20T17:16:41Z)
Open-sourced Dataset Protection via Backdoor Watermarking [87.15630326131901]
本稿では,オープンソースの画像分類データセットを保護するために,Emphbackdoor Embeddingベースのデータセット透かし手法を提案する。疑わしい第三者モデルによって生成される後続確率に基づいて,仮説テストガイド法を用いてデータセット検証を行う。
論文参考訳（メタデータ） (2020-10-12T16:16:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。