論文の概要: High-Power Training Data Identification with Provable Statistical Guarantees
- arxiv url: http://arxiv.org/abs/2510.09717v1
- Date: Fri, 10 Oct 2025 06:28:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.583115
- Title: High-Power Training Data Identification with Provable Statistical Guarantees
- Title(参考訳): 確率的統計的保証を用いた高出力トレーニングデータ同定
- Authors: Zhenlong Liu, Hao Zeng, Weiran Huang, Hongxin Wei,
- Abstract要約: 本稿では,厳密な偽発見率(FDR)制御でトレーニングデータの集合を識別する厳密な手法であるProvable Training Data Identification (PTDI)を紹介する。
この手順により、証明可能で厳格なFDR制御と大幅なパワー向上によるトレーニングデータの発見が可能になる。
- 参考スコア(独自算出の注目度): 21.78494059028984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Identifying training data within large-scale models is critical for copyright litigation, privacy auditing, and ensuring fair evaluation. The conventional approaches treat it as a simple binary classification task without statistical guarantees. A recent approach is designed to control the false discovery rate (FDR), but its guarantees rely on strong, easily violated assumptions. In this paper, we introduce Provable Training Data Identification (PTDI), a rigorous method that identifies a set of training data with strict false discovery rate (FDR) control. Specifically, our method computes p-values for each data point using a set of known unseen data, and then constructs a conservative estimator for the data usage proportion of the test set, which allows us to scale these p-values. Our approach then selects the final set of training data by identifying all points whose scaled p-values fall below a data-dependent threshold. This entire procedure enables the discovery of training data with provable, strict FDR control and significantly boosted power. Extensive experiments across a wide range of models (LLMs and VLMs), and datasets demonstrate that PTDI strictly controls the FDR and achieves higher power.
- Abstract(参考訳): 大規模モデルにおけるトレーニングデータの特定は、著作権訴訟、プライバシー監査、公正な評価の確保に不可欠である。
従来の手法では、統計的保証のない単純なバイナリ分類タスクとして扱う。
最近のアプローチは、偽発見率(FDR)を制御するように設計されているが、その保証は、強い、容易に違反した仮定に依存している。
本稿では,厳密な偽発見率(FDR)制御でトレーニングデータの集合を識別する厳密な手法であるProvable Training Data Identification (PTDI)を紹介する。
具体的には、既知の未知のデータを用いて各データポイントのp-値を計算するとともに、テストセットのデータ使用率に対する保守的推定器を構築し、これらのp-値のスケールを可能にする。
提案手法では,p値のスケールがデータ依存しきい値を下回るすべての点を特定することで,最終的なトレーニングデータを選択する。
この手順により、証明可能で厳格なFDR制御と大幅なパワー向上によるトレーニングデータの発見が可能になる。
幅広いモデル(LLMとVLM)にわたる大規模な実験とデータセットは、PTDIがFDRを厳密に制御し、より高いパワーを達成することを示す。
関連論文リスト
- COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Unlocking Post-hoc Dataset Inference with Synthetic Data [11.886166976507711]
トレーニングデータセットは、データ所有者の知的財産権を尊重することなく、しばしばインターネットから取り除かれる。
推論(DI)は、被疑者データセットがトレーニングに使用されたかどうかを特定することで潜在的な治療を提供する。
既存のDIメソッドでは、妥協したデータセットの分布と密接に一致するトレーニングを欠くために、プライベートな設定を必要とします。
本研究では,必要なホールドアウト集合を合成的に生成することで,この問題に対処する。
論文 参考訳(メタデータ) (2025-06-18T08:46:59Z) - Detecting and Filtering Unsafe Training Data via Data Attribution with Denoised Representation [8.963777475007669]
大規模言語モデル(LLM)は、少数の安全でないトレーニングデータに対して非常に敏感である。
本稿では,新しい表現型データ属性手法であるDenoized Representation (DRA)を提案する。
論文 参考訳(メタデータ) (2025-02-17T03:50:58Z) - Federated Prediction-Powered Inference from Decentralized Data [40.84399531998246]
予測パワー推論(PPI)は信頼性が低いにもかかわらず統計的妥当性を確保するために提案されている。
Fed-PPIフレームワークは、プライベートデータ上でローカルモデルをトレーニングし、Federated Learning (FL)を通じてそれらを集約し、PPIを使用して信頼区間を導出する。
論文 参考訳(メタデータ) (2024-09-03T09:14:18Z) - Diverse Data Augmentation with Diffusions for Effective Test-time Prompt
Tuning [73.75282761503581]
DiffTPTを提案する。DiffTPTは,事前学習した拡散モデルを用いて,多種多様な情報データを生成する。
DiffTPTがゼロショット精度を平均5.13%向上することを示す。
論文 参考訳(メタデータ) (2023-08-11T09:36:31Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - Stop Uploading Test Data in Plain Text: Practical Strategies for
Mitigating Data Contamination by Evaluation Benchmarks [70.39633252935445]
データ汚染は、大規模な自動クロールコーパスで事前訓練されたモデルの台頭によって、普及し、課題となっている。
クローズドモデルの場合、トレーニングデータはトレードシークレットになり、オープンモデルであっても汚染を検出するのは簡単ではない。
1)公開するテストデータを公開鍵で暗号化し,デリバティブ配信を許可する,(2)クローズドAPI保持者からの要求トレーニング排他的コントロールを許可する,(2)評価を拒否してテストデータを保護する,(3)インターネット上のソリューションで表示されるデータを避け,インターネット由来のWebページコンテキストを解放する,という3つの方法を提案する。
論文 参考訳(メタデータ) (2023-05-17T12:23:38Z) - Sequential Kernelized Independence Testing [77.237958592189]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。
シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文 参考訳(メタデータ) (2022-12-14T18:08:42Z) - Robust Flow-based Conformal Inference (FCI) with Statistical Guarantee [4.821312633849745]
本研究では,予測集合の構築や,複雑なデータや高次元データに対するアウトレイラの推測など,一連の共形推論手法を開発する。
ベンチマークデータセットを用いて,ロバストなフローベース共形推論手法の評価を行った。
論文 参考訳(メタデータ) (2022-05-22T04:17:30Z) - Deep Active Learning for Biased Datasets via Fisher Kernel
Self-Supervision [5.352699766206807]
アクティブラーニング(AL)は、データ要求型ディープニューラルネットワーク(DNN)のラベル付け作業を最小化する
自己教師型フィッシャーカーネル(FK)を用いた特徴密度マッチングのための低複雑さ手法を提案する。
本手法は,MNIST,SVHN,ImageNetの分類において,処理の1/10しか必要とせず,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2020-03-01T03:56:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。