論文の概要: Perturb Your Data: Paraphrase-Guided Training Data Watermarking
- arxiv url: http://arxiv.org/abs/2512.17075v1
- Date: Thu, 18 Dec 2025 21:17:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.175835
- Title: Perturb Your Data: Paraphrase-Guided Training Data Watermarking
- Title(参考訳): Perturb your data: Paraphrase-Guided Training Data Watermarking
- Authors: Pranav Shetty, Mirazul Haque, Petr Babkin, Zhiqiang Ma, Xiaomo Liu, Manuela Veloso,
- Abstract要約: SPECTRAは、トレーニングコーパスの0.001%未満であっても、トレーニングデータを確実に検出できる透かし方式である。
SPECTRAはトレーニングに使用しないデータとトレーニングに使用しないデータとを検出した場合に,9桁以上のp値の連続的なギャップを達成できることを実証した。
- 参考スコア(独自算出の注目度): 20.738856513256238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training data detection is critical for enforcing copyright and data licensing, as Large Language Models (LLM) are trained on massive text corpora scraped from the internet. We present SPECTRA, a watermarking approach that makes training data reliably detectable even when it comprises less than 0.001% of the training corpus. SPECTRA works by paraphrasing text using an LLM and assigning a score based on how likely each paraphrase is, according to a separate scoring model. A paraphrase is chosen so that its score closely matches that of the original text, to avoid introducing any distribution shifts. To test whether a suspect model has been trained on the watermarked data, we compare its token probabilities against those of the scoring model. We demonstrate that SPECTRA achieves a consistent p-value gap of over nine orders of magnitude when detecting data used for training versus data not used for training, which is greater than all baselines tested. SPECTRA equips data owners with a scalable, deploy-before-release watermark that survives even large-scale LLM training.
- Abstract(参考訳): 大規模な言語モデル(LLM)は、インターネットから取り除かれた大量のテキストコーパスで訓練されている。
トレーニングコーパスの0.001%未満であっても、トレーニングデータを確実に検出できる、透かし方式であるSPECTRAを提案する。
SPECTRAはLLMを使ってテキストをパラフレーズ化し、各パラフレーズの確率に基づいてスコアを割り当てる。
パラフレーズは、そのスコアが元のテキストと密接に一致するように選択され、分配シフトを発生させない。
透かしデータを用いて被疑者モデルを訓練したかどうかを調べるため,トークン確率をスコアリングモデルと比較した。
SPECTRAは,トレーニングに使用したデータとトレーニングに使用していないデータとを検出した場合,最大9桁以上のp値ギャップを達成できることを実証した。
SPECTRAは、大規模LLMトレーニングでも生き残る、スケーラブルでデプロイ前リリースの透かしをデータ所有者に提供する。
関連論文リスト
- Extracting alignment data in open models [50.81383232591576]
訓練後モデルから大量のアライメントトレーニングデータを抽出できることが示唆された。
このデータは、長期コンテキスト推論、安全性、命令追従、数学などの特定の機能を改善するためにモデルを操縦するのに有用である。
SFT や RL のような後トレーニングフェーズで使用されたトレーニングデータを,モデルが容易に再学習できることが判明した。
論文 参考訳(メタデータ) (2025-10-21T12:06:00Z) - STAMP Your Content: Proving Dataset Membership via Watermarked Rephrasings [17.175065729425825]
STAMPはデータセットのメンバシップを検出するフレームワークである。
トレーニングデータに1回しか表示されない4つのベンチマークにおける汚染を,我々のフレームワークが検出できることが示される。
論文 参考訳(メタデータ) (2025-04-18T02:25:08Z) - Improving Pretraining Data Using Perplexity Correlations [56.41097718862742]
我々は,LLM学習を必要とせず,高品質な事前学習データを選択するフレームワークを提案する。
我々は,パープレキシティ-ベンチマーク相関の推定を中心に,データ選択のための新しい統計フレームワークを構築した。
提案手法は,DataComp-LMで見つかった最高のデータセレクタをマッチングしながら,各ベンチマークでDSIRより優れている。
論文 参考訳(メタデータ) (2024-09-09T17:23:29Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,グレーボックス条件下で動作可能である。
4つのベンチマークデータセットから35個の主要なオープンソースLCMのデータ漏洩度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Safe Training with Sensitive In-domain Data: Leveraging Data Fragmentation To Mitigate Linkage Attacks [2.8186733524862158]
現在のテキスト生成モデルは、機密情報を含む可能性がある実際のデータを使って訓練される。
本稿では,断片化されたデータをランダムにグループ化されたドメイン固有の短いフレーズの形で見る,より安全な代替手法を提案する。
論文 参考訳(メタデータ) (2024-04-30T12:09:55Z) - DE-COP: Detecting Copyrighted Content in Language Models Training Data [24.15936677068714]
著作権のあるコンテンツの一部がトレーニングに含まれているかどうかを判定する手法であるDE-COPを提案する。
BookTectionは165冊の書籍から抜粋を抽出したベンチマークで、モデルによるトレーニングの切り離しの後に作成します。
実験の結果、DE-COPは検出性能が9.6%向上した。
論文 参考訳(メタデータ) (2024-02-15T12:17:15Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。