論文の概要: Retracing the Past: LLMs Emit Training Data When They Get Lost
- arxiv url: http://arxiv.org/abs/2511.05518v1
- Date: Mon, 27 Oct 2025 03:48:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-16 06:38:31.010283
- Title: Retracing the Past: LLMs Emit Training Data When They Get Lost
- Title(参考訳): 過去を振り返る - LLMはトレーニングデータを失くす
- Authors: Myeongseob Ko, Nikhil Reddy Billa, Adam Nguyen, Charles Fleming, Ming Jin, Ruoxi Jia,
- Abstract要約: 大規模言語モデルにおけるトレーニングデータの記憶は、プライバシーと著作権に関する重大な懸念を生じさせる。
本稿では,記憶されたデータを抽出するための基本的枠組みであるCIAについて紹介する。
- 参考スコア(独自算出の注目度): 18.852558767604823
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The memorization of training data in large language models (LLMs) poses significant privacy and copyright concerns. Existing data extraction methods, particularly heuristic-based divergence attacks, often exhibit limited success and offer limited insight into the fundamental drivers of memorization leakage. This paper introduces Confusion-Inducing Attacks (CIA), a principled framework for extracting memorized data by systematically maximizing model uncertainty. We empirically demonstrate that the emission of memorized text during divergence is preceded by a sustained spike in token-level prediction entropy. CIA leverages this insight by optimizing input snippets to deliberately induce this consecutive high-entropy state. For aligned LLMs, we further propose Mismatched Supervised Fine-tuning (SFT) to simultaneously weaken their alignment and induce targeted confusion, thereby increasing susceptibility to our attacks. Experiments on various unaligned and aligned LLMs demonstrate that our proposed attacks outperform existing baselines in extracting verbatim and near-verbatim training data without requiring prior knowledge of the training data. Our findings highlight persistent memorization risks across various LLMs and offer a more systematic method for assessing these vulnerabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)におけるトレーニングデータの記憶は、プライバシーと著作権に関する重大な懸念を生じさせる。
既存のデータ抽出手法、特にヒューリスティックベースの発散攻撃は、限られた成功を示し、記憶の漏洩の基本的な要因について限られた洞察を与える。
本稿では,モデル不確実性を体系的に最大化することにより,記憶されたデータを抽出するための基本的枠組みである Confusion-Inducing Attacks (CIA) を紹介する。
我々は,トークンレベルの予測エントロピーの持続的なスパイクによって,発散時の暗記テキストの放出が先行していることを実証的に実証した。
CIAはこの洞察を利用して、入力スニペットを最適化し、この連続した高エントロピー状態を意図的に誘導する。
また,LLMのアライメントに対して,同時にアライメントを弱め,ターゲットの混乱を誘発し,攻撃に対する感受性を高めるために,Mismatched Supervised Fine-tuning (SFT)を提案する。
種々の不整合および整合性 LLM 実験により,提案手法による攻撃は,トレーニングデータの事前知識を必要とせず,既存のベースラインよりも優れていることが示された。
本研究は, 各種LSMの持続的記憶リスクに注目し, これらの脆弱性を評価するためのより体系的な方法を提案する。
関連論文リスト
- SPEAR++: Scaling Gradient Inversion via Sparsely-Used Dictionary Learning [48.41770886055744]
Federated Learningは最近、現実世界のシナリオへのデプロイが増えている。
いわゆる勾配反転攻撃の導入は、プライバシー保護特性に挑戦している。
本稿では,ReLU活性化を伴う線形層の勾配の理論的解析に基づくSPEARを紹介する。
新たな攻撃であるSPEAR++は、DPノイズに対する堅牢性やFedAvgアグリゲーションなど、SPEARの望ましい特性をすべて保持しています。
論文 参考訳(メタデータ) (2025-10-28T09:06:19Z) - LLM Unlearning on Noisy Forget Sets: A Study of Incomplete, Rewritten, and Watermarked Data [69.5099112089508]
大規模言語モデル(LLM)は、顕著な生成能力を示すが、機密データを記憶することで倫理的およびセキュリティ上の懸念を引き起こす。
この研究は、ノイズのある忘れセットと呼ばれる、摂動的または低忠実な忘れデータの下での未学習に関する最初の研究を提示する。
コアセマンティック信号が保存されている場合、未学習は摂動に対して驚くほど堅牢である。
論文 参考訳(メタデータ) (2025-10-10T05:10:49Z) - Unlocking Memorization in Large Language Models with Dynamic Soft Prompting [66.54460367290146]
大規模言語モデル(LLM)は、要約、質問応答、翻訳などの自然言語処理(NLP)タスクに革命をもたらした。
LLMはトレーニングデータを記憶する傾向があるため、重大なセキュリティリスクを生じ、プライバシー侵害や著作権侵害につながる可能性がある。
動的,プレフィックスに依存したソフトプロンプトを用いたLLM記憶推定手法を提案する。
論文 参考訳(メタデータ) (2024-09-20T18:56:32Z) - Detecting, Explaining, and Mitigating Memorization in Diffusion Models [49.438362005962375]
そこで本研究では,テキスト条件予測の大きさを検査することで,暗黙のプロンプトを検出する方法を提案する。
提案手法はサンプリングアルゴリズムを中断することなくシームレスに統合し,第1世代でも高い精度を実現する。
検出戦略に基づいて,個々の単語やトークンの記憶への寄与を示す説明可能なアプローチを提示する。
論文 参考訳(メタデータ) (2024-07-31T16:13:29Z) - Extracting Training Data from Unconditional Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(AI)の主流モデルとして採用されている。
本研究の目的は,1) 理論解析のための記憶量,2) 情報ラベルとランダムラベルを用いた条件記憶量,3) 記憶量測定のための2つのより良い評価指標を用いて,DPMにおける記憶量の理論的理解を確立することである。
提案手法は,理論解析に基づいて,SIDE (textbfSurrogate condItional Data extract) と呼ばれる新しいデータ抽出手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T16:20:12Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Learning to Poison Large Language Models for Downstream Manipulation [12.521338629194503]
この研究は、教師付き微調整プロセスを利用するのに適した新しいデータ中毒攻撃を設計することで、LLM(Large Language Models)のさらなるセキュリティリスクを特定する。
本稿では,逆方向誘導学習(GBTL)アルゴリズムを提案する。
In-context Learning(ICL)とContinuous Learning(CL)の2つの防衛戦略を提案する。
論文 参考訳(メタデータ) (2024-02-21T01:30:03Z) - Amplifying Training Data Exposure through Fine-Tuning with Pseudo-Labeled Memberships [3.544065185401289]
ニューラルネットワークモデル(LM)は、データ記憶によるデータ抽出攻撃のトレーニングに脆弱である。
本稿では,攻撃者がトレーニング済みのLMを微調整して,元のトレーニングデータの露出を増幅する,新たな攻撃シナリオを提案する。
1B以上のパラメータを持つLMは、トレーニングデータ露出の4倍から8倍の増大を示す。
論文 参考訳(メタデータ) (2024-02-19T14:52:50Z) - Mitigating Approximate Memorization in Language Models via Dissimilarity
Learned Policy [0.0]
大規模言語モデル(LLM)は大量のデータに基づいて訓練される。
LLMは、トレーニングデータの一部を記憶し、相手が適切にプロンプトすると、それらのデータを冗長に出力することを示した。
論文 参考訳(メタデータ) (2023-05-02T15:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。