論文の概要: STAMP Your Content: Proving Dataset Membership via Watermarked Rephrasings
- arxiv url: http://arxiv.org/abs/2504.13416v1
- Date: Fri, 18 Apr 2025 02:25:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 19:39:01.60221
- Title: STAMP Your Content: Proving Dataset Membership via Watermarked Rephrasings
- Title(参考訳): STAMP Your Content:Watermarked Rephrasingsによるデータセットメンバーシップの証明
- Authors: Saksham Rastogi, Pratyush Maini, Danish Pruthi,
- Abstract要約: STAMPはデータセットのメンバシップを検出するフレームワークである。
1つのバージョンは公開され、他のバージョンは非公開にされる。
トレーニングデータに1回しか表示されない4つのベンチマークにおける汚染を,我々のフレームワークが検出できることが示される。
- 参考スコア(独自算出の注目度): 17.175065729425825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given how large parts of publicly available text are crawled to pretrain large language models (LLMs), data creators increasingly worry about the inclusion of their proprietary data for model training without attribution or licensing. Their concerns are also shared by benchmark curators whose test-sets might be compromised. In this paper, we present STAMP, a framework for detecting dataset membership-i.e., determining the inclusion of a dataset in the pretraining corpora of LLMs. Given an original piece of content, our proposal involves first generating multiple rephrases, each embedding a watermark with a unique secret key. One version is to be released publicly, while others are to be kept private. Subsequently, creators can compare model likelihoods between public and private versions using paired statistical tests to prove membership. We show that our framework can successfully detect contamination across four benchmarks which appear only once in the training data and constitute less than 0.001% of the total tokens, outperforming several contamination detection and dataset inference baselines. We verify that STAMP preserves both the semantic meaning and the utility of the original data in comparing different models. We apply STAMP to two real-world scenarios to confirm the inclusion of paper abstracts and blog articles in the pretraining corpora.
- Abstract(参考訳): 公開されているテキストの大部分がLLM(Large Language Model)を事前訓練するためにクロールされていることを考えると、データ作成者は、帰属やライセンスなしに、モデルトレーニングのための独自のデータを含めることをますます心配している。
これらの懸念は、テストセットが妥協される可能性のあるベンチマークキュレーターによっても共有される。
本稿では,LLMの事前学習コーパスにデータセットが組み込まれているかどうかを判定する,データセットのメンバシップを検出するためのフレームワークSTAMPを提案する。
元のコンテンツが与えられた場合、提案ではまず複数のリフレーズを生成し、それぞれがユニークな秘密鍵で透かしを埋め込む。
1つのバージョンは公開され、他のバージョンは非公開にされる。
その後、クリエーターは、ペアの統計テストを使用して、パブリックバージョンとプライベートバージョンの比較を行い、メンバーシップを証明する。
トレーニングデータに1回だけ現れる4つのベンチマークの汚染検出に成功し、全トークンの0.001%未満を構成し、いくつかの汚染検出とデータセット推論ベースラインを上回っていることを示す。
我々は,STAMPが,異なるモデルの比較において,元のデータの意味的意味と有用性の両方を保っていることを検証した。
本稿では,STAMPを2つの現実シナリオに適用し,事前学習コーパスに論文やブログ記事が組み込まれていることを確認する。
関連論文リスト
- CBW: Towards Dataset Ownership Verification for Speaker Verification via Clustering-based Backdoor Watermarking [85.68235482145091]
大規模音声データセットは貴重な知的財産となった。
本稿では,新しいデータセットのオーナシップ検証手法を提案する。
我々のアプローチはクラスタリングに基づくバックドア透かし(CBW)を導入している。
我々は,ベンチマークデータセットに対する広範な実験を行い,本手法の有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2025-03-02T02:02:57Z) - Measuring Bias of Web-filtered Text Datasets and Bias Propagation Through Training [22.53813258871828]
大規模言語モデル(LLM)の事前学習データセットのバイアスについて,データセット分類実験により検討した。
ニューラルネットワークは、単一のテキストシーケンスが属するデータセットを驚くほどよく分類することができる。
論文 参考訳(メタデータ) (2024-12-03T21:43:58Z) - Self-Comparison for Dataset-Level Membership Inference in Large (Vision-)Language Models [73.94175015918059]
本稿では,自己比較に基づくデータセットレベルのメンバシップ推定手法を提案する。
本手法では, 同一分布における地中構造データや非構造データへのアクセスは不要である。
論文 参考訳(メタデータ) (2024-10-16T23:05:59Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,グレーボックス条件下で動作可能である。
4つのベンチマークデータセットから35個の主要なオープンソースLCMのデータ漏洩度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Range Membership Inference Attacks [17.28638946021444]
本研究では,RaMIA(Ra Range Membering Inference attack)のクラスを導入し,モデルが特定の範囲の任意のデータに対してトレーニングされたかどうかを検証した。
各種データ上でのMIAよりも,プライバシ損失をより正確に,包括的に捉えることができることを示す。
論文 参考訳(メタデータ) (2024-08-09T15:39:06Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - Detecting Pretraining Data from Large Language Models [90.12037980837738]
事前学習データ検出問題について検討する。
事前学習データを知ることなく、テキスト片とLCMへのブラックボックスアクセスを条件に、モデルが提供されたテキストでトレーニングされたかどうかを判断できますか?
簡単な仮説に基づく新しい検出手法Min-K% Probを提案する。
論文 参考訳(メタデータ) (2023-10-25T17:21:23Z) - Client-specific Property Inference against Secure Aggregation in
Federated Learning [52.8564467292226]
フェデレートラーニングは、さまざまな参加者の間で共通のモデルを協調的に訓練するための、広く使われているパラダイムとなっている。
多くの攻撃は、メンバーシップ、資産、または参加者データの完全な再構築のような機密情報を推測することは依然として可能であることを示した。
単純な線形モデルでは、集約されたモデル更新からクライアント固有のプロパティを効果的にキャプチャできることが示される。
論文 参考訳(メタデータ) (2023-03-07T14:11:01Z) - Differentially Private Label Protection in Split Learning [20.691549091238965]
Split Learningは分散トレーニングフレームワークで、複数のパーティが分割されたデータ上で機械学習モデルを共同でトレーニングすることができる。
近年の研究では、分割学習の実装は、半正直な敵が簡単にラベルを再構築できる厳しいプライバシーリスクに悩まされていることが示されている。
提案するtextsfTPSL (Transcript Private Split Learning) は,差分プライバシーを保証する汎用的なグラデーションベース分割学習フレームワークである。
論文 参考訳(メタデータ) (2022-03-04T00:35:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。