論文の概要: Identifying Pre-training Data in LLMs: A Neuron Activation-Based Detection Framework
- arxiv url: http://arxiv.org/abs/2507.16414v1
- Date: Tue, 22 Jul 2025 10:05:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.06126
- Title: Identifying Pre-training Data in LLMs: A Neuron Activation-Based Detection Framework
- Title(参考訳): LLMにおける事前学習データの同定:ニューロン活性化に基づく検出フレームワーク
- Authors: Hongyi Tang, Zhihao Zhu, Yi Yang,
- Abstract要約: 大規模言語モデル(LLM)のパフォーマンスは、著作権のある資料やプライベート情報を含むトレーニングデータと密接に結びついている。
LLMにおけるトレーニングデータと非トレーニングデータの差分ニューロン活性化パターンを解析する新しいアルゴリズムであるNA-PDDを導入する。
また、厳密なデータ変換を用いて、トレーニングデータと非トレーニングデータ間の一貫した時間分布を確保するための、時間的偏りのないベンチマークであるCCNewsPDDを導入する。
- 参考スコア(独自算出の注目度): 17.364424086991207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of large language models (LLMs) is closely tied to their training data, which can include copyrighted material or private information, raising legal and ethical concerns. Additionally, LLMs face criticism for dataset contamination and internalizing biases. To address these issues, the Pre-Training Data Detection (PDD) task was proposed to identify if specific data was included in an LLM's pre-training corpus. However, existing PDD methods often rely on superficial features like prediction confidence and loss, resulting in mediocre performance. To improve this, we introduce NA-PDD, a novel algorithm analyzing differential neuron activation patterns between training and non-training data in LLMs. This is based on the observation that these data types activate different neurons during LLM inference. We also introduce CCNewsPDD, a temporally unbiased benchmark employing rigorous data transformations to ensure consistent time distributions between training and non-training data. Our experiments demonstrate that NA-PDD significantly outperforms existing methods across three benchmarks and multiple LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の性能は、著作権のある資料や私的情報を含む訓練データと密接に結びついており、法的および倫理的懸念を提起している。
さらに、LLMはデータセットの汚染と内部化バイアスに対する批判に直面している。
これらの問題に対処するため、LPMの事前学習コーパスに特定のデータが含まれているかどうかを特定するために、事前学習データ検出(PDD)タスクが提案された。
しかしながら、既存のPDD手法は、しばしば予測の信頼性や損失のような表面的な特徴に依存しており、結果として中間的な性能をもたらす。
これを改善するために,LLMにおけるトレーニングデータと非トレーニングデータの差分ニューロン活性化パターンを解析する新しいアルゴリズムであるNA-PDDを導入する。
これは、これらのデータ型がLDM推論中に異なるニューロンを活性化する観察に基づいている。
また、厳密なデータ変換を用いて、トレーニングデータと非トレーニングデータ間の一貫した時間分布を確保するための、時間的偏りのないベンチマークであるCCNewsPDDを導入する。
実験の結果,NA-PDD は3つのベンチマークと複数の LLM で既存手法を著しく上回っていることがわかった。
関連論文リスト
- Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - Does Data Contamination Detection Work (Well) for LLMs? A Survey and Evaluation on Detection Assumptions [20.51842378080194]
大規模言語モデル(LLM)は、様々なベンチマークで優れた性能を示し、汎用的なタスクソルバとしての可能性を示している。
LLMは典型的には大量のデータに基づいて訓練されるため、その評価において重要な関心事はデータ汚染である。
データ汚染検出に関する50の論文を体系的にレビューし、基礎となる仮定を分類し、厳格に検証されたかどうかを評価する。
論文 参考訳(メタデータ) (2024-10-24T17:58:22Z) - Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
本稿では,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練する新しいメンバーシップ推論手法EM-MIAを紹介する。
EM-MIAはWikiMIAで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-10T03:31:16Z) - Fine-tuning can Help Detect Pretraining Data from Large Language Models [7.7209640786782385]
現在のメソッドでは、PerplexityやMin-k%といったスコアリング関数を設計することで、メンバと非メンバを区別している。
本研究では,FSD(Fun-Tuned Score Deviation)と呼ばれる新しい手法を提案する。
特に、同じ領域内の少数の未確認データを微調整した後、電流スコアの偏差距離を測定することを提案する。
論文 参考訳(メタデータ) (2024-10-09T15:36:42Z) - Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。
我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文 参考訳(メタデータ) (2024-09-23T07:55:35Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - Probing Language Models for Pre-training Data Detection [11.37731401086372]
本稿では,モデルの内部アクティベーションを調べることで,事前学習データ検出のための探索手法を提案する。
我々の手法はシンプルで効果的であり、より信頼性の高い事前学習データ検出につながる。
論文 参考訳(メタデータ) (2024-06-03T13:58:04Z) - On Inter-dataset Code Duplication and Data Leakage in Large Language Models [4.148857672591562]
本稿では,データセット間の重複現象とその大規模言語モデル(LLM)評価への影響について検討する。
この結果から,複数のSEタスクにまたがるLCMの評価は,データ間重複現象に起因する可能性が示唆された。
オープンソースモデルがデータセット間の重複に影響される可能性があることを示す。
論文 参考訳(メタデータ) (2024-01-15T19:46:40Z) - Data Contamination Through the Lens of Time [21.933771085956426]
大規模言語モデル(LLM)は一般に利用可能なベンチマークを評価することでしばしばサポートされる。
このプラクティスは、データ汚染の懸念、すなわち、トレーニングデータに明示的にまたは暗黙的に含まれている例を評価することを提起する。
GPTモデルにおけるトレーニングカットオフの自然実験を用いて, LLMにおけるデータ汚染の経時的解析を行った。
論文 参考訳(メタデータ) (2023-10-16T17:51:29Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。