論文の概要: Sequence-Level Leakage Risk of Training Data in Large Language Models
- arxiv url: http://arxiv.org/abs/2412.11302v2
- Date: Mon, 03 Feb 2025 19:53:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:55:37.735784
- Title: Sequence-Level Leakage Risk of Training Data in Large Language Models
- Title(参考訳): 大規模言語モデルにおける学習データのシーケンスレベル漏洩リスク
- Authors: Trishita Tiwari, G. Edward Suh,
- Abstract要約: シーケンス毎の抽出確率は、以前の研究よりもきめ細かい情報を提供する。
本研究では,Llama と OPT の2つの事前学習モデルについて,それぞれコモン・クローリングとパイルを訓練した。
- 参考スコア(独自算出の注目度): 7.600279942640982
- License:
- Abstract: This work performs an analysis of sequence-level probabilities for quantifying the of risk training data extraction from Large Language Models (LLMs). Per-sequence extraction probabilities provide finer-grained information than has been studied in prior work. We re-analyze the effects of decoding schemes, model sizes, prefix lengths, partial sequence leakages, and token positions to uncover new insights that were not possible in previous works due to their choice of metrics. We perform this study on two pre-trained models, Llama and OPT, trained on the Common Crawl and The Pile respectively. We discover that 1) Extraction Rate, the predominant metric used in prior quantification work, underestimates the threat of leakage of training data in randomized LLMs by as much as 2.14X. 2) Although on average, larger models and longer prefixes can extract more data, this is not true for a substantial portion of individual sequences. 30.4-41.5% of our sequences are easier to extract with either shorter prefixes or smaller models. 3) Contrary to previous beliefs, partial leakage in commonly used decoding schemes like top-k and top-p is not easier than leaking verbatim training data. 4) Extracting later tokens in a sequence is as much as 10.12X easier than extracting earlier tokens. The insights gained from our analysis shed light on the nature of memorization of training data on a per-sequence basis.
- Abstract(参考訳): 本研究は,Large Language Models (LLMs) から抽出したリスクトレーニングデータの定量化のためのシーケンスレベルの確率の解析を行う。
シーケンス毎の抽出確率は、以前の研究よりもきめ細かい情報を提供する。
我々は、デコードスキーム、モデルサイズ、プレフィックス長、部分シーケンスリーク、トークン位置の影響を再解析し、メトリクスの選択によって以前の研究では不可能だった新しい洞察を明らかにする。
本研究では,Llama と OPT の2つの事前学習モデルについて,それぞれコモン・クローリングとパイルを訓練した。
私たちはそれを発見します
1)事前定量化作業で使用される主要な指標である抽出レートは、ランダム化LDMにおけるトレーニングデータの漏洩の脅威を最大2.14倍過小評価する。
2) 平均的, より大きいモデルとより長いプレフィックスはより多くのデータを抽出できるが, 個々のシーケンスのかなりの部分に当てはまるわけではない。
30.4-41.5%のシーケンスは、短いプレフィックスまたはより小さなモデルで簡単に抽出できる。
3)従来の信念とは対照的に,トップkやトップpのような一般的な復号法では部分的な漏洩は,動詞の学習データを漏洩させるよりも容易ではない。
4) 後続のトークンをシーケンスで抽出することは、以前のトークンを抽出するよりも10.12倍簡単である。
分析から得られた知見は、シーケンス毎のトレーニングデータの記憶の性質に光を当てた。
関連論文リスト
- Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Adaptive Pre-training Data Detection for Large Language Models via Surprising Tokens [1.2549198550400134]
大きな言語モデル(LLM)は広く使われているが、プライバシー、セキュリティ、著作権については不透明なトレーニングデータのために懸念されている。
この問題に対する現在の解決策は、メンバーシップ推論攻撃(MIA)のような機械学習プライバシで探索されたテクニックを活用する。
本稿では、この信頼性を軽減し、同定を効果的に増幅する適応型事前学習データ検出法を提案する。
論文 参考訳(メタデータ) (2024-07-30T23:43:59Z) - Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。
よりシンプルで知識集約的なタスクでは記憶が大きな役割を担い、一方、一般化はより困難で推論に基づくタスクでは鍵となる。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - D4: Improving LLM Pretraining via Document De-Duplication and
Diversification [38.84592304799403]
事前訓練されたモデル埋め込みによる慎重なデータ選択は、トレーニングをスピードアップできることを示す。
また、データ繰り返しがベースライントレーニングよりインテリジェントに優れていることも示しています。
論文 参考訳(メタデータ) (2023-08-23T17:58:14Z) - Ethicist: Targeted Training Data Extraction Through Loss Smoothed Soft
Prompting and Calibrated Confidence Estimation [56.57532238195446]
本研究では,対象とするトレーニングデータ抽出のためのEthicistという手法を提案する。
メモリ化を誘発するため、モデルを固定しながらソフトなプロンプト埋め込みをチューニングする。
我々は,最近提案された公開ベンチマークにおいて,エティシストが抽出性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-07-10T08:03:41Z) - Bag of Tricks for Training Data Extraction from Language Models [98.40637430115204]
公開データセットを用いてトレーニングデータ抽出を改善するための手法とベンチマーク手法について検討する。
実験結果から,これまで見過ごされていたいくつかのトリックが,トレーニングデータ抽出の成功に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2023-02-09T06:46:42Z) - Numeracy from Literacy: Data Science as an Emergent Skill from Large
Language Models [0.0]
OpenAIのChatGPTやGPT-3のような大規模言語モデル(LLM)は、リテラシーを数字化するための翻訳課題を探求するためのユニークなテストベッドを提供する。
以前の18ヶ月前から公開されていたトランスフォーマーモデルと1000倍の小さなモデルでは基本的な算術演算が得られなかった。
本研究は, 文の完成から実際の数値理解の領域へ, 次世代の予測が成功するかどうかを考察する。
論文 参考訳(メタデータ) (2023-01-31T03:14:57Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。