論文の概要: Unlocking Post-hoc Dataset Inference with Synthetic Data
- arxiv url: http://arxiv.org/abs/2506.15271v1
- Date: Wed, 18 Jun 2025 08:46:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.602782
- Title: Unlocking Post-hoc Dataset Inference with Synthetic Data
- Title(参考訳): 合成データを用いたポストホックデータセット推論のアンロック
- Authors: Bihe Zhao, Pratyush Maini, Franziska Boenisch, Adam Dziedzic,
- Abstract要約: トレーニングデータセットは、データ所有者の知的財産権を尊重することなく、しばしばインターネットから取り除かれる。
推論(DI)は、被疑者データセットがトレーニングに使用されたかどうかを特定することで潜在的な治療を提供する。
既存のDIメソッドでは、妥協したデータセットの分布と密接に一致するトレーニングを欠くために、プライベートな設定を必要とします。
本研究では,必要なホールドアウト集合を合成的に生成することで,この問題に対処する。
- 参考スコア(独自算出の注目度): 11.886166976507711
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The remarkable capabilities of Large Language Models (LLMs) can be mainly attributed to their massive training datasets, which are often scraped from the internet without respecting data owners' intellectual property rights. Dataset Inference (DI) offers a potential remedy by identifying whether a suspect dataset was used in training, thereby enabling data owners to verify unauthorized use. However, existing DI methods require a private set-known to be absent from training-that closely matches the compromised dataset's distribution. Such in-distribution, held-out data is rarely available in practice, severely limiting the applicability of DI. In this work, we address this challenge by synthetically generating the required held-out set. Our approach tackles two key obstacles: (1) creating high-quality, diverse synthetic data that accurately reflects the original distribution, which we achieve via a data generator trained on a carefully designed suffix-based completion task, and (2) bridging likelihood gaps between real and synthetic data, which is realized through post-hoc calibration. Extensive experiments on diverse text datasets show that using our generated data as a held-out set enables DI to detect the original training sets with high confidence, while maintaining a low false positive rate. This result empowers copyright owners to make legitimate claims on data usage and demonstrates our method's reliability for real-world litigations. Our code is available at https://github.com/sprintml/PostHocDatasetInference.
- Abstract(参考訳): LLM(Large Language Models)の顕著な機能は、主に、データ所有者の知的財産権を尊重することなく、インターネットから取り除かれた大規模なトレーニングデータセットに起因する可能性がある。
Dataset Inference (DI)は、被疑者データセットがトレーニングに使用されたかどうかを特定することによって、潜在的な対策を提供する。
しかし、既存のDIメソッドでは、妥協したデータセットの分布と密に一致したトレーニングを欠いているプライベートなデータセットを要求します。
このような非配布の保留データを実際に利用できることは稀であり、DIの適用性を著しく制限している。
本研究では,必要なホールドアウト集合を合成的に生成することで,この問題に対処する。
提案手法は,(1) 従来の分布を正確に反映した高品質で多様な合成データを作成すること,(2) ポストホックキャリブレーションによって実現される実データと合成データのギャップを埋めること,の2つの障害に対処する。
多様なテキストデータセットに対する大規模な実験により、生成したデータをホールトアウトセットとして使用することにより、DIは、偽陽性率を低く保ちながら、信頼度の高いトレーニングセットを検出できることがわかった。
この結果、著作権所有者はデータ使用に関する正当な主張をすることができるようになり、実際の訴訟に対する我々の方法の信頼性が証明される。
私たちのコードはhttps://github.com/sprintml/PostHocDatasetInferenceで利用可能です。
関連論文リスト
- A Certified Unlearning Approach without Access to Source Data [4.585544474674649]
有効なデータ除去を実現するための認定アンラーニングフレームワークを提案する。
提案手法では,ソースデータの統計特性を近似したサロゲートデータセットを用いる。
その結果,プライバシに敏感な設定におけるアプローチの有効性と信頼性が示された。
論文 参考訳(メタデータ) (2025-06-06T19:22:47Z) - Hey, That's My Data! Label-Only Dataset Inference in Large Language Models [63.35066172530291]
CatShiftはラベルのみのデータセット推論フレームワークである。
LLMは、新しいデータに晒されたとき、学習した知識を上書きする傾向にある。
論文 参考訳(メタデータ) (2025-06-06T13:02:59Z) - Data Taggants: Dataset Ownership Verification via Harmless Targeted Data Poisoning [12.80649024603656]
本稿では,非バックドアデータセットのオーナシップ検証技術であるデータタグを新たに導入する。
我々は、VTモデルとResNetモデルと最先端のトレーニングレシピを用いて、ImageNet1kの包括的で現実的な実験を通してアプローチを検証する。
論文 参考訳(メタデータ) (2024-10-09T12:49:23Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - Stop Uploading Test Data in Plain Text: Practical Strategies for
Mitigating Data Contamination by Evaluation Benchmarks [70.39633252935445]
データ汚染は、大規模な自動クロールコーパスで事前訓練されたモデルの台頭によって、普及し、課題となっている。
クローズドモデルの場合、トレーニングデータはトレードシークレットになり、オープンモデルであっても汚染を検出するのは簡単ではない。
1)公開するテストデータを公開鍵で暗号化し,デリバティブ配信を許可する,(2)クローズドAPI保持者からの要求トレーニング排他的コントロールを許可する,(2)評価を拒否してテストデータを保護する,(3)インターネット上のソリューションで表示されるデータを避け,インターネット由来のWebページコンテキストを解放する,という3つの方法を提案する。
論文 参考訳(メタデータ) (2023-05-17T12:23:38Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。