論文の概要: From Unfamiliar to Familiar: Detecting Pre-training Data via Gradient Deviations in Large Language Models
- arxiv url: http://arxiv.org/abs/2603.04828v1
- Date: Thu, 05 Mar 2026 05:21:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.087662
- Title: From Unfamiliar to Familiar: Detecting Pre-training Data via Gradient Deviations in Large Language Models
- Title(参考訳): 未知からファミリアへ:大規模言語モデルにおける勾配偏差による事前学習データの検出
- Authors: Ruiqi Zhang, Lingxiang Wang, Hainan Zhang, Zhiming Zheng, Yanyan Lan,
- Abstract要約: 既存の手法は主に微調整前後の確率に基づく統計的特徴や信号に焦点を当てている。
対象サンプルの勾配偏差スコアを探索することにより,事前学習データを識別するGDSを提案する。
GDSは、強いベースライン上でのクロスデータセット転送性を大幅に改善し、最先端の性能を実現している。
- 参考スコア(独自算出の注目度): 24.38939297043815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training data detection for LLMs is essential for addressing copyright concerns and mitigating benchmark contamination. Existing methods mainly focus on the likelihood-based statistical features or heuristic signals before and after fine-tuning, but the former are susceptible to word frequency bias in corpora, and the latter strongly depend on the similarity of fine-tuning data. From an optimization perspective, we observe that during training, samples transition from unfamiliar to familiar in a manner reflected by systematic differences in gradient behavior. Familiar samples exhibit smaller update magnitudes, distinct update locations in model components, and more sharply activated neurons. Based on this insight, we propose GDS, a method that identifies pre-training data by probing Gradient Deviation Scores of target samples. Specifically, we first represent each sample using gradient profiles that capture the magnitude, location, and concentration of parameter updates across FFN and Attention modules, revealing consistent distinctions between member and non-member data. These features are then fed into a lightweight classifier to perform binary membership inference. Experiments on five public datasets show that GDS achieves state-of-the-art performance with significantly improved cross-dataset transferability over strong baselines. Further interpretability analyse show gradient feature distribution differences, enabling practical and scalable pre-training data detection.
- Abstract(参考訳): LLMの事前トレーニングデータ検出は、著作権問題に対処し、ベンチマーク汚染を軽減するために不可欠である。
既存の手法は主に微調整前後の確率に基づく統計的特徴やヒューリスティック信号に重点を置いているが、前者はコーパスにおける単語周波数バイアスの影響を受けやすく、後者は微調整データの類似性に強く依存している。
最適化の観点から、トレーニング中、サンプルは、勾配挙動の系統的差異によって反映される方法で、慣れていないものから慣れ親しんだものへと遷移する。
ファミリアサンプルは、より小さな更新サイズ、モデル成分の異なる更新位置、より鋭く活性化されたニューロンを示す。
この知見に基づいて,対象サンプルの勾配偏差スコアを探索することにより,事前学習データを識別するGDSを提案する。
具体的には、まず各サンプルを、FFNとAttentionモジュール間のパラメータ更新の大きさ、位置、濃度を把握した勾配プロファイルを用いて表現し、メンバーデータと非メンバーデータとを一貫した区別を明らかにした。
これらの機能は、バイナリメンバシップ推論を実行するために、軽量な分類器に入力される。
5つの公開データセットの実験により、GDSは強力なベースライン上でのクロスデータセット転送性を大幅に改善し、最先端のパフォーマンスを達成することが示された。
さらなる解釈可能性分析は、勾配特性の分布差を示し、実用的でスケーラブルな事前学習データ検出を可能にする。
関連論文リスト
- Exploiting Inter-Sample Information for Long-tailed Out-of-Distribution Detection [7.0229899259286945]
視覚データセットの長期認識において,サンプル間関係の活用によりOODの検出が大幅に向上することを示す。
提案手法は, FPRとテールクラスIDの分類精度において, 最先端の手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2025-11-20T03:31:37Z) - Fine-tuning can Help Detect Pretraining Data from Large Language Models [7.7209640786782385]
現在のメソッドでは、PerplexityやMin-k%といったスコアリング関数を設計することで、メンバと非メンバを区別している。
本研究では,FSD(Fun-Tuned Score Deviation)と呼ばれる新しい手法を提案する。
特に、同じ領域内の少数の未確認データを微調整した後、電流スコアの偏差距離を測定することを提案する。
論文 参考訳(メタデータ) (2024-10-09T15:36:42Z) - Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Impact of Noisy Supervision in Foundation Model Learning [91.56591923244943]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Assessing Neural Network Representations During Training Using
Noise-Resilient Diffusion Spectral Entropy [55.014926694758195]
ニューラルネットワークにおけるエントロピーと相互情報は、学習プロセスに関する豊富な情報を提供する。
データ幾何を利用して基礎となる多様体にアクセスし、これらの情報理論測度を確実に計算する。
本研究は,高次元シミュレーションデータにおける固有次元と関係強度の耐雑音性の測定結果である。
論文 参考訳(メタデータ) (2023-12-04T01:32:42Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。