論文の概要: PDR: A Plug-and-Play Positional Decay Framework for LLM Pre-training Data Detection
- arxiv url: http://arxiv.org/abs/2601.06827v1
- Date: Sun, 11 Jan 2026 09:32:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.013918
- Title: PDR: A Plug-and-Play Positional Decay Framework for LLM Pre-training Data Detection
- Title(参考訳): PDR: LLM事前学習データ検出のためのプラグアンドプレイ位置決定フレームワーク
- Authors: Jinhan Liu, Yibo Yang, Ruiying Lu, Piotr Piekos, Yimeng Chen, Peng Wang, Dandan Guo,
- Abstract要約: 大規模言語モデル(LLM)における事前学習データを検出するトレーニングフリーでプラグアンドプレイのフレームワークであるPDRを導入する。
PDRはトークンレベルのスコアを明示的に強調し、初期位置からの異なる信号を増幅し、後の位置からのノイズを抑制する。
- 参考スコア(独自算出の注目度): 30.13331191100816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting pre-training data in Large Language Models (LLMs) is crucial for auditing data privacy and copyright compliance, yet it remains challenging in black-box, zero-shot settings where computational resources and training data are scarce. While existing likelihood-based methods have shown promise, they typically aggregate token-level scores using uniform weights, thereby neglecting the inherent information-theoretic dynamics of autoregressive generation. In this paper, we hypothesize and empirically validate that memorization signals are heavily skewed towards the high-entropy initial tokens, where model uncertainty is highest, and decay as context accumulates. To leverage this linguistic property, we introduce Positional Decay Reweighting (PDR), a training-free and plug-and-play framework. PDR explicitly reweights token-level scores to amplify distinct signals from early positions while suppressing noise from later ones. Extensive experiments show that PDR acts as a robust prior and can usually enhance a wide range of advanced methods across multiple benchmarks.
- Abstract(参考訳): 大規模言語モデル(LLM)における事前トレーニングデータの検出は、データのプライバシと著作権コンプライアンスの監査に不可欠だが、計算リソースやトレーニングデータが不足しているゼロショット設定のブラックボックスでは依然として難しい。
既存の可能性ベースの手法は将来性を示しているが、通常は均一な重みを使ってトークンレベルのスコアを集約し、したがって自己回帰生成の固有の情報理論のダイナミクスを無視する。
本稿では,記憶信号が高エントロピー初期トークンに対して強く歪められていることを仮定し,実証的に検証する。
この言語的特性を活用するために、トレーニングフリーでプラグアンドプレイのフレームワークであるPDR(Pightal Decay Reweighting)を導入する。
PDRはトークンレベルのスコアを明示的に強調し、初期位置からの異なる信号を増幅し、後の位置からのノイズを抑制する。
大規模な実験により、PDRは頑健な事前動作を示し、通常、複数のベンチマークにまたがる幅広い高度な手法を拡張できる。
関連論文リスト
- Holdout-Loss-Based Data Selection for LLM Finetuning via In-Context Learning [19.677969862434708]
本稿では,データ選択と再重み付けのための理論的に基礎的,資源効率のよいフレームワークを提案する。
In-Context Approximation (ICA) は、モデルが候補の例でトレーニングした後のホールドアウト損失を推定する。
モデルパラメータの進化に伴い, ICAスコアから指数重みを導出し, 勾配更新を動的に再加重する。
論文 参考訳(メタデータ) (2025-10-16T09:00:39Z) - Reconsidering Degeneration of Token Embeddings with Definitions for Encoder-based Pre-trained Language Models [20.107727903240065]
本研究では,エンコーダに基づく言語モデルのための等方的および意味論的トークン埋め込みを再構築するために,DefindEMBを提案する。
本実験は,Wiktionaryの定義を応用し,そのような埋め込みを再構築する効果を実証する。
論文 参考訳(メタデータ) (2024-08-02T15:00:05Z) - Adaptive Pre-training Data Detection for Large Language Models via Surprising Tokens [1.2549198550400134]
大きな言語モデル(LLM)は広く使われているが、プライバシー、セキュリティ、著作権については不透明なトレーニングデータのために懸念されている。
この問題に対する現在の解決策は、メンバーシップ推論攻撃(MIA)のような機械学習プライバシで探索されたテクニックを活用する。
本稿では、この信頼性を軽減し、同定を効果的に増幅する適応型事前学習データ検出法を提案する。
論文 参考訳(メタデータ) (2024-07-30T23:43:59Z) - Impact of Noisy Supervision in Foundation Model Learning [91.56591923244943]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Revisit Few-shot Intent Classification with PLMs: Direct Fine-tuning vs. Continual Pre-training [20.98770732015944]
少量のラベル付きデータのみを使用して、基礎となる意図に基づいて発話を分類するために、深層学習モデルを訓練する。
この課題に対するPLMの過度な適合問題は、予想されるほど深刻ではないため、継続事前学習は必須ではない可能性がある。
限られた利用可能なデータの利用を最大化するために,コンテキスト拡張法を提案し,逐次自己蒸留を利用して性能を向上させる。
論文 参考訳(メタデータ) (2023-06-08T15:26:52Z) - Representation Learning for Sequence Data with Deep Autoencoding
Predictive Components [96.42805872177067]
本稿では,シーケンスデータの有用な表現が潜在空間における単純な構造を示すべきという直感に基づく,シーケンスデータの自己教師型表現学習法を提案する。
我々は,過去と将来のウィンドウ間の相互情報である潜在特徴系列の予測情報を最大化することにより,この潜時構造を奨励する。
提案手法は,ノイズの多い動的システムの潜時空間を復元し,タスク予測のための予測特徴を抽出し,エンコーダを大量の未ラベルデータで事前訓練する場合に音声認識を改善する。
論文 参考訳(メタデータ) (2020-10-07T03:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。