論文の概要: Adaptive and Robust Watermark for Generative Tabular Data
- arxiv url: http://arxiv.org/abs/2409.14700v1
- Date: Mon, 23 Sep 2024 04:37:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 21:23:54.432737
- Title: Adaptive and Robust Watermark for Generative Tabular Data
- Title(参考訳): 生成的タブラリデータに対する適応的およびロバストな透かし
- Authors: Dung Daniel Ngo, Daniel Scott, Saheed Obitayo, Vamsi K. Potluru, Manuela Veloso,
- Abstract要約: 生成表データに対するフレキシブルでロバストな透かし機構を提案する。
ウォーターマークされたデータセットがデータ品質と下流のユーティリティに無視できる影響があることを理論的および実証的に示す。
- 参考スコア(独自算出の注目度): 8.566821590631907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent developments in generative models have demonstrated its ability to create high-quality synthetic data. However, the pervasiveness of synthetic content online also brings forth growing concerns that it can be used for malicious purposes. To ensure the authenticity of the data, watermarking techniques have recently emerged as a promising solution due to their strong statistical guarantees. In this paper, we propose a flexible and robust watermarking mechanism for generative tabular data. Specifically, a data provider with knowledge of the downstream tasks can partition the feature space into pairs of $(key, value)$ columns. Within each pair, the data provider first uses elements in the $key$ column to generate a randomized set of ''green'' intervals, then encourages elements of the $value$ column to be in one of these ''green'' intervals. We show theoretically and empirically that the watermarked datasets (i) have negligible impact on the data quality and downstream utility, (ii) can be efficiently detected, and (iii) are robust against multiple attacks commonly observed in data science.
- Abstract(参考訳): 生成モデルにおける最近の進歩は、高品質な合成データを作成する能力を示している。
しかし、オンラインの合成コンテンツの普及は、悪意のある目的のために使用できるという懸念も高まっている。
データの信頼性を確保するため、ウォーターマーク技術は最近、強力な統計的保証のために、有望な解決策として登場した。
本稿では,生成表データに対するフレキシブルでロバストな透かし機構を提案する。
具体的には、ダウンストリームタスクに関する知識を持つデータプロバイダは、機能空間を$(key, value)$コラムのペアに分割することができる。
各ペア内で、データプロバイダはまず$key$列の要素を使用して'green'間隔のランダム化されたセットを生成し、その後、$value$列の要素を'green'間隔の1つにすることを推奨する。
我々は、ウォーターマークされたデータセットが理論的、実証的に示す
i)データ品質と下流ユーティリティに無視できる影響がある。
(ii) を効率よく検出し,
(iii)データサイエンスでよく見られる複数の攻撃に対して堅牢である。
関連論文リスト
- Data Watermarking for Sequential Recommender Systems [52.207721219147814]
本稿では,シーケンシャルレコメンデータシステムにおけるデータ透かしの問題について検討する。
データセットの透かしはデータセット全体のオーナシップを保護し、ユーザ透かしは個々のユーザのデータを保護する。
提案手法では,不人気な項目をランダムに選択して透かしシーケンスを生成し,通常のユーザのインタラクションシーケンスに挿入する。
論文 参考訳(メタデータ) (2024-11-20T02:34:21Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Detecting Dataset Abuse in Fine-Tuning Stable Diffusion Models for Text-to-Image Synthesis [3.8809673918404246]
認証されていない使用とトレースデータのリークを検出するために設計されたデータセットの透かしフレームワーク。
我々は、不正使用やトレースデータ漏洩を検出するために設計されたデータセット透かしフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-27T16:34:48Z) - DREW : Towards Robust Data Provenance by Leveraging Error-Controlled Watermarking [58.37644304554906]
誤り訂正符号と透かしを用いたデータ検索法(DREW)を提案する。
DREWはランダムに参照データセットをクラスタ化し、各クラスタに独自のエラー制御された透かしキーを注入する。
関連するクラスタを特定した後、最も正確な一致を見つけるために、クラスタ内に埋め込みベクトル類似性検索を行う。
論文 参考訳(メタデータ) (2024-06-05T01:19:44Z) - Watermarking Generative Tabular Data [39.31042783480766]
提案した透かしは,データ忠実性を忠実に保ちながら,有効に検出できることを理論的に示す。
また,付加音に対する強靭性も示している。
論文 参考訳(メタデータ) (2024-05-22T21:52:12Z) - FreqyWM: Frequency Watermarking for the New Data Economy [8.51675079658644]
目に見えない透かしを符号化するためのデータセット内のいくつかのトークンの出現頻度を変調する新しい手法を提案する。
このような透かしを作成し検証するアルゴリズムを最適かつ高速に開発する。
論文 参考訳(メタデータ) (2023-12-27T12:17:59Z) - Domain Watermark: Effective and Harmless Dataset Copyright Protection is
Closed at Hand [96.26251471253823]
バックドアベースのデータセットオーナシップ検証(DOV)は現在、オープンソースデータセットの著作権を保護するための唯一の実現可能なアプローチである。
我々は、(保護されたデータセットでトレーニングされた)ウォーターマークされたモデルを、良質なモデルによって誤って分類されるであろう、いくつかの難しい'サンプルを正しく分類する。
論文 参考訳(メタデータ) (2023-10-09T11:23:05Z) - Benchmarking and Analyzing Generative Data for Visual Recognition [66.55174903469722]
この研究は生成的画像の影響を深く掘り下げ、主に外部データを利用するパラダイムを比較する。
我々は、2548のカテゴリを持つ22のデータセットからなるベンチマークである textbfGenBench を考案し、様々な視覚的認識タスクにまたがる生成データを評価した。
我々の徹底的なベンチマークと分析は、将来の調査における重要な課題を特定しながら、視覚認識における生成データの約束をスポットライトで示している。
論文 参考訳(メタデータ) (2023-07-25T17:59:59Z) - HydraGAN A Multi-head, Multi-objective Approach to Synthetic Data
Generation [8.260059020010454]
我々はHydraGANを導入する。HydraGANは、複数のジェネレータと識別エージェントをシステムに導入する合成データ生成の新しいアプローチである。
我々は,HydraGANがデータリアリズムの最大化,モデル精度の最大化,再識別リスクの最小化という複数の基準で,3つのデータセットのベースライン手法よりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-13T02:19:11Z) - Open-sourced Dataset Protection via Backdoor Watermarking [87.15630326131901]
本稿では,オープンソースの画像分類データセットを保護するために,Emphbackdoor Embeddingベースのデータセット透かし手法を提案する。
疑わしい第三者モデルによって生成される後続確率に基づいて,仮説テストガイド法を用いてデータセット検証を行う。
論文 参考訳(メタデータ) (2020-10-12T16:16:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。