Fugu-MT 論文翻訳(概要): Watermarking Generative Tabular Data

論文の概要: Watermarking Generative Tabular Data

arxiv url: http://arxiv.org/abs/2405.14018v1
Date: Wed, 22 May 2024 21:52:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-24 19:54:29.251877
Title: Watermarking Generative Tabular Data
Title（参考訳）: Watermarking Generative Tabular Data
Authors: Hengzhi He, Peiyu Yu, Junpeng Ren, Ying Nian Wu, Guang Cheng,
Abstract要約: 提案した透かしは,データ忠実性を忠実に保ちながら,有効に検出できることを理論的に示す。また,付加音に対する強靭性も示している。
参考スコア（独自算出の注目度）: 39.31042783480766
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we introduce a simple yet effective tabular data watermarking mechanism with statistical guarantees. We show theoretically that the proposed watermark can be effectively detected, while faithfully preserving the data fidelity, and also demonstrates appealing robustness against additive noise attack. The general idea is to achieve the watermarking through a strategic embedding based on simple data binning. Specifically, it divides the feature's value range into finely segmented intervals and embeds watermarks into selected ``green list" intervals. To detect the watermarks, we develop a principled statistical hypothesis-testing framework with minimal assumptions: it remains valid as long as the underlying data distribution has a continuous density function. The watermarking efficacy is demonstrated through rigorous theoretical analysis and empirical validation, highlighting its utility in enhancing the security of synthetic and real-world datasets.
Abstract（参考訳）: 本稿では,統計的保証を伴う簡易かつ効果的な表型データ透かし機構を提案する。提案した透かしは,データ忠実性を忠実に保ちながら有効に検出できることを示し,加法雑音攻撃に対する強靭性を示す。一般的な考え方は、単純なデータバインディングに基づいた戦略的埋め込みを通じて、透かしを実現することである。具体的には、フィーチャーの値範囲を細かく区分けされた間隔に分割し、透かしを選択された ``green list' 間隔に埋める。透かしを検出するため,基礎となるデータ分布が連続的な密度関数を持つ限り,最小限の仮定を持つ統計的仮説テストフレームワークを開発した。透かしの有効性は厳密な理論的分析と実証的な検証を通じて実証され、合成および実世界のデータセットの安全性を高めるためのその有用性を強調している。

関連論文リスト

DWBench: Holistic Evaluation of Watermark for Dataset Copyright Auditing [43.881484429055654]
データセット透かし技術は、監査と使用の検証を約束する。我々はDWBenchを開発した。DWBenchは、画像データセットのウォーターマーク手法を体系的に評価するための統一ベンチマークおよびオープンソースツールキットである。そこで本研究では,詳細な透かし識別のためのサンプルの意義と,データセットレベルの監査における検証成功率の2つの新しい指標について述べる。
論文参考訳（メタデータ） (2026-02-14T01:09:19Z)
More Haste, Less Speed: Weaker Single-Layer Watermark Improves Distortion-Free Watermark Ensembles [58.941305935872265]
強い透かしがトークン分布のエントロピーを著しく減少させることを示す。本稿では,より弱い単一層透かしを用いて,効率的なマルチ層アンサンブルに必要なエントロピーを保存するフレームワークを提案する。
論文参考訳（メタデータ） (2026-02-12T10:18:16Z)
Improve the Trade-off Between Watermark Strength and Speculative Sampling Efficiency for Language Models [18.988823703120865]
投機的サンプリングは推論を加速し、受容率が増加するにつれて効率が向上する。高い透かし強度は受け入れを減らし、同時に達成するのを防ぐ。本稿では,トークンが擬似乱数の決定論的関数である場合に最大化される統計的検出可能性を管理する透かし強度の測定手法を提案する。
論文参考訳（メタデータ） (2026-02-01T20:30:59Z)
Analyzing and Evaluating Unbiased Language Model Watermark [62.982950935139534]
UWbenchは、偏りのない透かし手法の原理的評価を専門とする、最初のオープンソースベンチマークである。我々の枠組みは理論的な貢献と経験的な貢献を組み合わせている。我々は,非バイアス性,検出性,堅牢性という3軸評価プロトコルを確立し,トークン改質攻撃がパラフレーズベースの手法よりも安定したロバストネス評価を提供することを示す。
論文参考訳（メタデータ） (2025-09-28T19:46:01Z)
An Ensemble Framework for Unbiased Language Model Watermarking [60.99969104552168]
本研究では,アンサンブル・フレームワークであるENSを提案する。 ENSは複数の独立した透かしインスタンスを順次構成し、それぞれ異なるキーによって管理され、透かし信号を増幅する。実験的な評価では、ENSは信頼できる検出に必要なトークンの数を大幅に減らし、平滑化やパラフレージング攻撃に対する耐性を高めている。
論文参考訳（メタデータ） (2025-09-28T19:37:44Z)
Dataset Protection via Watermarked Canaries in Retrieval-Augmented LLMs [67.0310240737424]
本稿では,テキストデータセットの所有権を保護し,RA-LLMによる不正使用を効果的に検出するための新しいアプローチを提案する。提案手法では,IPデータセットに特別に設計されたカナリア文書を挿入することにより,元のデータを完全に変更することなく保護する。検出プロセス中、カナリア文書をクエリし、RA-LLMの応答を分析することにより、不正使用を識別する。
論文参考訳（メタデータ） (2025-02-15T04:56:45Z)
Watermarking Generative Categorical Data [9.087950471621653]
本手法は,データ分布を2つの成分に分割し,一方の分布を他方との決定論的関係に基づいて修正することにより秘密信号を埋め込む。透かしを検証するために挿入逆アルゴリズムを導入し、逆復号データと元の分布との間の全変動距離を計測してその存在を検出する。
論文参考訳（メタデータ） (2024-11-16T21:57:45Z)
Embedding Watermarks in Diffusion Process for Model Intellectual Property Protection [16.36712147596369]
拡散過程全体に透かしを埋め込むことにより,新しい透かしの枠組みを導入する。詳細な理論的解析と実験的検証により,提案手法の有効性が示された。
論文参考訳（メタデータ） (2024-10-29T18:27:10Z)
Inevitable Trade-off between Watermark Strength and Speculative Sampling Efficiency for Language Models [63.450843788680196]
最大透かし強度と最高サンプリング効率を同時に維持することは不可能である。本研究では,サンプリング効率と透かし強度を両立させる2つの手法を提案する。我々の研究は、透かし強度とサンプリング効率の本質的にのトレードオフを理解するための厳密な理論基盤を提供する。
論文参考訳（メタデータ） (2024-10-27T12:00:19Z)
Adaptive and Robust Watermark for Generative Tabular Data [8.566821590631907]
生成表データに対するフレキシブルでロバストな透かし機構を提案する。ウォーターマークされたデータセットがデータ品質と下流のユーティリティに無視できる影響があることを理論的および実証的に示す。
論文参考訳（メタデータ） (2024-09-23T04:37:30Z)
TabularMark: Watermarking Tabular Datasets for Machine Learning [20.978995194849297]
仮説テストに基づく透かし方式であるTabularMarkを提案する。データノイズパーティショニングは、埋め込み中のデータ摂動に利用される。実世界のデータセットと合成データセットの実験は、検出性、非侵入性、堅牢性においてTabularMarkの優位性を示している。
論文参考訳（メタデータ） (2024-06-21T02:58:45Z)
TokenMark: A Modality-Agnostic Watermark for Pre-trained Transformers [67.57928750537185]
TokenMarkは、事前訓練されたモデルに対する頑健で、モダリティに依存しない、堅牢な透かしシステムである。予めトレーニングされたモデルを、特別に置換されたデータサンプルのセットに微調整することで、透かしを埋め込む。これはモデル透かしの堅牢性、効率、普遍性を著しく改善する。
論文参考訳（メタデータ） (2024-03-09T08:54:52Z)
Domain Watermark: Effective and Harmless Dataset Copyright Protection is Closed at Hand [96.26251471253823]
バックドアベースのデータセットオーナシップ検証(DOV)は現在、オープンソースデータセットの著作権を保護するための唯一の実現可能なアプローチである。我々は、(保護されたデータセットでトレーニングされた)ウォーターマークされたモデルを、良質なモデルによって誤って分類されるであろう、いくつかの難しい'サンプルを正しく分類する。
論文参考訳（メタデータ） (2023-10-09T11:23:05Z)
Did You Train on My Dataset? Towards Public Dataset Protection with Clean-Label Backdoor Watermarking [54.40184736491652]
本稿では,公開データの保護のための一般的な枠組みとして機能するバックドアベースの透かし手法を提案する。データセットに少数の透かしサンプルを挿入することにより、我々のアプローチは、ディフェンダーが設定した秘密関数を暗黙的に学習することを可能にする。この隠れた機能は、データセットを違法に使用するサードパーティモデルを追跡するための透かしとして使用できる。
論文参考訳（メタデータ） (2023-03-20T21:54:30Z)
WSSOD: A New Pipeline for Weakly- and Semi-Supervised Object Detection [75.80075054706079]
弱機能および半教師付きオブジェクト検出フレームワーク(WSSOD)を提案する。エージェント検出器は、まず関節データセット上でトレーニングされ、弱注釈画像上で擬似境界ボックスを予測するために使用される。提案フレームワークはPASCAL-VOC と MSCOCO のベンチマークで顕著な性能を示し,完全教師付き環境で得られたものと同等の性能を達成している。
論文参考訳（メタデータ） (2021-05-21T11:58:50Z)
Open-sourced Dataset Protection via Backdoor Watermarking [87.15630326131901]
本稿では,オープンソースの画像分類データセットを保護するために,Emphbackdoor Embeddingベースのデータセット透かし手法を提案する。疑わしい第三者モデルによって生成される後続確率に基づいて,仮説テストガイド法を用いてデータセット検証を行う。
論文参考訳（メタデータ） (2020-10-12T16:16:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。