論文の概要: Pretraining Data Exposure in Large Language Models: A Survey of Membership Inference, Data Contamination, and Security Implications
- arxiv url: http://arxiv.org/abs/2605.26133v1
- Date: Thu, 21 May 2026 10:32:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.191132
- Title: Pretraining Data Exposure in Large Language Models: A Survey of Membership Inference, Data Contamination, and Security Implications
- Title(参考訳): 大規模言語モデルにおけるデータ公開の事前学習:メンバーシップ推論,データ汚染,セキュリティへの影響に関する調査
- Authors: Ziyi Tong, Feifei Sun, Le Minh Nguyen,
- Abstract要約: データとメンバシップ推論という2つの重要な領域を交わし、評価の整合性を確保し、プライバシを保護することが重要である。
本稿では,PDE フレームワーク下での両者の統一的な調査について紹介する。
我々は、暴露レベルを越えてPDEを定式化し、攻撃と防御の方法をレビューし、経験的発見を合成し、オープンな課題と今後の研究方向性を明らかにする。
- 参考スコア(独自算出の注目度): 3.9448289587779404
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) have become the predominant paradigm in NLP, advancing both research and industry. As model sizes and pretraining data grow, concerns about Pretraining Data Exposure (PDE) increase due to the scale and opacity of training datasets. PDE refers to determining whether specific data appeared in an LLM's pretraining corpus. It is critical for ensuring evaluation integrity and protecting privacy, intersecting two key areas: data contamination and membership inference. Though conceptually related, these areas have often been studied in isolation. This paper offers the first unified survey of both under the PDE framework. We formalize PDE across exposure levels, review attack and defense methods, synthesize empirical findings, and highlight open challenges and future research directions.
- Abstract(参考訳): 大規模言語モデル(LLM)はNLPの主要なパラダイムとなり、研究と産業の両方を進歩させた。
モデルのサイズと事前トレーニングデータの増加に伴い、トレーニングデータセットの規模と不透明さにより、プレトレーニングデータ露光(PDE)に対する懸念が増大する。
PDEは、LLMの事前学習コーパスに特定のデータが現れるかどうかを決定することを指す。
データ汚染とメンバーシップ推論という2つの重要な領域を交わし、評価の整合性を確保し、プライバシを保護することが重要である。
概念上の関連性はあるものの、これらの領域はしばしば孤立して研究されてきた。
本稿は,PDEフレームワーク下での両者の統一的な調査を初めて実施する。
我々は、暴露レベルを越えてPDEを定式化し、攻撃と防御の方法をレビューし、経験的発見を合成し、オープンな課題と今後の研究方向性を明らかにする。
関連論文リスト
- Paving the way for scientific foundation models: enhancing generalization and robustness in PDEs with constraint-aware pre-training [49.8035317670223]
科学基盤モデル(SciFM)は、様々な領域にまたがる伝達可能な表現を学習するための有望なツールとして登場しつつある。
本稿では,PDE残差を単独の学習信号として,あるいはデータ損失と組み合わせて事前学習に組み込むことにより,限定的あるいは実用的でないトレーニングデータに補償することを提案する。
以上の結果から, PDE制約による事前学習は, 解データのみを訓練したモデルよりも, 一般化を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-03-24T19:12:39Z) - A Survey on Data Contamination for Large Language Models [12.431575579432458]
大規模言語モデル(LLM)は、テキスト生成やコード合成など、様々な分野で大きな進歩を見せている。
データ汚染による性能評価の信頼性は精査されている。
論文 参考訳(メタデータ) (2025-02-20T10:23:27Z) - Extracting Training Data from Unconditional Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(AI)の主流モデルとして採用されている。
本研究の目的は,1) 理論解析のための記憶量,2) 情報ラベルとランダムラベルを用いた条件記憶量,3) 記憶量測定のための2つのより良い評価指標を用いて,DPMにおける記憶量の理論的理解を確立することである。
提案手法は,理論解析に基づいて,SIDE (textbfSurrogate condItional Data extract) と呼ばれる新しいデータ抽出手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T16:20:12Z) - Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文 参考訳(メタデータ) (2023-10-20T05:44:39Z) - Training Data Extraction From Pre-trained Language Models: A Survey [1.0152838128195467]
プレトレーニング言語モデル(PLM)の展開が拡大するにつれて、トレーニングデータの悪意ある抽出の可能性に対するセキュリティ上の懸念が強まっている。
本研究は, PLMからのトレーニングデータ抽出に関する総合的な調査を初めて行ったものである。
論文 参考訳(メタデータ) (2023-05-25T15:23:29Z) - A Pretrainer's Guide to Training Data: Measuring the Effects of Data
Age, Domain Coverage, Quality, & Toxicity [84.6421260559093]
この研究は、テキスト事前学習に関する文書化されていない直観を検証、定量化、公開するための最大の実験である。
以上の結果から,トレーニングデータをフィルタリングする一大ソリューションが存在しないことが示唆された。
論文 参考訳(メタデータ) (2023-05-22T15:57:53Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - Discovering Nonlinear PDEs from Scarce Data with Physics-encoded
Learning [11.641708412097659]
ノイズや少ないデータからPDEを発見するための物理符号化離散学習フレームワークを提案する。
3つの非線形PDEシステムに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-01-28T07:49:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。