論文の概要: TabularMark: Watermarking Tabular Datasets for Machine Learning
- arxiv url: http://arxiv.org/abs/2406.14841v1
- Date: Fri, 21 Jun 2024 02:58:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 14:52:36.141943
- Title: TabularMark: Watermarking Tabular Datasets for Machine Learning
- Title(参考訳): TabularMark: 機械学習のためのウォーターマーク付きタブラルデータセット
- Authors: Yihao Zheng, Haocheng Xia, Junyuan Pang, Jinfei Liu, Kui Ren, Lingyang Chu, Yang Cao, Li Xiong,
- Abstract要約: 仮説テストに基づく透かし方式であるTabularMarkを提案する。
データノイズパーティショニングは、埋め込み中のデータ摂動に利用される。
実世界のデータセットと合成データセットの実験は、検出性、非侵入性、堅牢性においてTabularMarkの優位性を示している。
- 参考スコア(独自算出の注目度): 20.978995194849297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Watermarking is broadly utilized to protect ownership of shared data while preserving data utility. However, existing watermarking methods for tabular datasets fall short on the desired properties (detectability, non-intrusiveness, and robustness) and only preserve data utility from the perspective of data statistics, ignoring the performance of downstream ML models trained on the datasets. Can we watermark tabular datasets without significantly compromising their utility for training ML models while preventing attackers from training usable ML models on attacked datasets? In this paper, we propose a hypothesis testing-based watermarking scheme, TabularMark. Data noise partitioning is utilized for data perturbation during embedding, which is adaptable for numerical and categorical attributes while preserving the data utility. For detection, a custom-threshold one proportion z-test is employed, which can reliably determine the presence of the watermark. Experiments on real-world and synthetic datasets demonstrate the superiority of TabularMark in detectability, non-intrusiveness, and robustness.
- Abstract(参考訳): ウォーターマーキングは、データユーティリティを保持しながら共有データの所有権を保護するために広く利用されている。
しかし、既存のグラフデータセットの透かし手法は、所望の特性(検出性、非侵襲性、堅牢性)に乏しく、データ統計の観点からのみデータユーティリティを保持し、データセットでトレーニングされた下流MLモデルのパフォーマンスを無視する。
攻撃されたデータセット上で、攻撃者が使用可能なMLモデルをトレーニングするのを防止しながら、MLモデルをトレーニングするユーティリティを著しく損なうことなく、表形式のデータセットをウォーターマークできますか?
本稿では,仮説テストに基づく透かし方式であるTabularMarkを提案する。
データノイズパーティショニングは、埋め込み中のデータ摂動に利用され、データユーティリティを保ちながら数値的および分類的属性に適応できる。
検出にはカスタムスレッショルド1比z検定を用い、透かしの存在を確実に判定することができる。
実世界のデータセットと合成データセットの実験は、検出性、非侵入性、堅牢性においてTabularMarkの優位性を示している。
関連論文リスト
- Data Watermarking for Sequential Recommender Systems [52.207721219147814]
本稿では,シーケンシャルレコメンデータシステムにおけるデータ透かしの問題について検討する。
データセットの透かしはデータセット全体のオーナシップを保護し、ユーザ透かしは個々のユーザのデータを保護する。
提案手法では,不人気な項目をランダムに選択して透かしシーケンスを生成し,通常のユーザのインタラクションシーケンスに挿入する。
論文 参考訳(メタデータ) (2024-11-20T02:34:21Z) - Data Taggants: Dataset Ownership Verification via Harmless Targeted Data Poisoning [12.80649024603656]
本稿では,非バックドアデータセットのオーナシップ検証技術であるデータタグを新たに導入する。
我々は、VTモデルとResNetモデルと最先端のトレーニングレシピを用いて、ImageNet1kの包括的で現実的な実験を通してアプローチを検証する。
論文 参考訳(メタデータ) (2024-10-09T12:49:23Z) - PointNCBW: Towards Dataset Ownership Verification for Point Clouds via Negative Clean-label Backdoor Watermark [20.746346834429925]
我々は,点雲に対するクリーンラベルバックドアベースのデータセット透かしを提案し,有効性とステルス性の両方を保証する。
我々は、トリガーパターンを挿入する前に、形状的にも点的にも非ターゲットカテゴリの点雲を摂動する。
そのため、ウォーターマークされたデータセットでトレーニングされたモデルには、独特だがステルス的なバックドアの挙動がある。
論文 参考訳(メタデータ) (2024-08-10T09:31:58Z) - Watermarking Generative Tabular Data [39.31042783480766]
提案した透かしは,データ忠実性を忠実に保ちながら,有効に検出できることを理論的に示す。
また,付加音に対する強靭性も示している。
論文 参考訳(メタデータ) (2024-05-22T21:52:12Z) - Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic [99.3682210827572]
ビジョン言語モデル(VLM)は、慎重にキュレートされたWebデータセット上で数千のGPU時間でトレーニングされる。
データキュレーション戦略は通常、トレーニングに利用可能な計算を知らないように開発されている。
ウェブデータの非均一性を考慮したニューラルスケーリング法則を導入する。
論文 参考訳(メタデータ) (2024-04-10T17:27:54Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Domain Watermark: Effective and Harmless Dataset Copyright Protection is
Closed at Hand [96.26251471253823]
バックドアベースのデータセットオーナシップ検証(DOV)は現在、オープンソースデータセットの著作権を保護するための唯一の実現可能なアプローチである。
我々は、(保護されたデータセットでトレーニングされた)ウォーターマークされたモデルを、良質なモデルによって誤って分類されるであろう、いくつかの難しい'サンプルを正しく分類する。
論文 参考訳(メタデータ) (2023-10-09T11:23:05Z) - Did You Train on My Dataset? Towards Public Dataset Protection with
Clean-Label Backdoor Watermarking [54.40184736491652]
本稿では,公開データの保護のための一般的な枠組みとして機能するバックドアベースの透かし手法を提案する。
データセットに少数の透かしサンプルを挿入することにより、我々のアプローチは、ディフェンダーが設定した秘密関数を暗黙的に学習することを可能にする。
この隠れた機能は、データセットを違法に使用するサードパーティモデルを追跡するための透かしとして使用できる。
論文 参考訳(メタデータ) (2023-03-20T21:54:30Z) - On the Effectiveness of Dataset Watermarking in Adversarial Settings [14.095584034871658]
機械学習(ML)モデルのトレーニングに使用される(画像)データセットのオーナシップを実証するために,提案手法である放射能データについて検討する。
本研究では, 放射能データによるモデル抽出攻撃を効果的に回避できることを示し, モデル抽出に対して頑健なMLモデルのオーナシップ検証に使用できる可能性を示した。
論文 参考訳(メタデータ) (2022-02-25T05:51:53Z) - Open-sourced Dataset Protection via Backdoor Watermarking [87.15630326131901]
本稿では,オープンソースの画像分類データセットを保護するために,Emphbackdoor Embeddingベースのデータセット透かし手法を提案する。
疑わしい第三者モデルによって生成される後続確率に基づいて,仮説テストガイド法を用いてデータセット検証を行う。
論文 参考訳(メタデータ) (2020-10-12T16:16:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。