Fugu-MT 論文翻訳(概要): Sequence-Level Analysis of Leakage Risk of Training Data in Large Language Models

論文の概要: Sequence-Level Analysis of Leakage Risk of Training Data in Large Language Models

arxiv url: http://arxiv.org/abs/2412.11302v1
Date: Sun, 15 Dec 2024 20:27:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:50:00.118864
Title: Sequence-Level Analysis of Leakage Risk of Training Data in Large Language Models
Title（参考訳）: 大規模言語モデルにおける学習データの漏洩リスクのシーケンスレベル解析
Authors: Trishita Tiwari, G. Edward Suh,
Abstract要約: 我々はデコード方式,モデルサイズ,プレフィックス長,部分シーケンスリーク,トークン位置の影響を再解析する。本研究は,LLaMaとOPTの2つの事前学習モデルについて,それぞれコモンクローリングとパイルでトレーニングを行った。
参考スコア（独自算出の注目度）: 7.600279942640982
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This work advocates for the use of sequence level probabilities for quantifying the risk of extraction training data from Large Language Models (LLMs) as they provide much finer-grained information than has been previously obtained. We re-analyze the effects of decoding schemes, model-size, prefix length, partial sequence leakages, and token positions to uncover new insights that have were not possible in prior work due to their choice of metrics. We perform this study on two pre-trained models, LLaMa and OPT, trained on the Common Crawl and Pile respectively. We discover that 1) Extraction rate, the predominant metric used in prior quantification work, underestimates the threat of leakage of training data in randomized LLMs by as much as 2.14x. 2) Though, on average, larger models and longer prefixes can extract more data, this is not true with a substantial portion of individual sequences. 30.4-41.5% of our sequences are easier to extract with either shorter prefixes or smaller models. 3) Contrary to prior belief, partial leakage in the commonly used decoding schemes like top-k and top-p are not easier than leaking verbatim training data. 4) Extracting later tokens in a sequence is as much as 912% easier than extracting earlier tokens. The insights gained from our analysis show that it is important to look at leakage of training data on a per-sequence basis.
Abstract（参考訳）: 本研究は,Large Language Models (LLMs) からの学習データ抽出のリスクを定量化するためのシーケンスレベル確率の利用を提唱する。我々は、デコードスキーム、モデルサイズ、プレフィックス長、部分シーケンスリーク、トークン位置の影響を再解析し、メトリクスの選択による事前の作業では不可能な新たな洞察を明らかにする。本研究は,LLaMaとOPTの2つの事前学習モデルについて,それぞれコモン・クローリングとパイルで訓練を行った。私たちはそれを発見します 1)事前定量化作業で使用される主要な指標である抽出レートは、ランダム化LDMにおけるトレーニングデータの漏洩の脅威を最大2.14倍まで過小評価する。 2) 平均的, モデルが大きく, プレフィックスが長い場合には, より多くのデータを抽出できるが, 個々のシーケンスのかなりの部分では, 事実ではない。 30.4-41.5%のシーケンスは、短いプレフィックスまたはより小さなモデルで簡単に抽出できる。 3)事前の信念とは対照的に,トップkやトップpのような一般的な復号法では部分的な漏洩は,動詞の学習データを漏洩させるよりも容易ではない。 4) 後続トークンの抽出は,先行トークンの抽出よりも912%ほど容易である。本分析から得られた知見は,シーケンス毎のトレーニングデータの漏洩を調べることが重要であることを示している。

関連論文リスト

How Much Do Code Language Models Remember? An Investigation on Data Extraction Attacks before and after Fine-tuning [2.3759432635713895]
我々は、事前訓練されたコード言語モデルと微調整されたコード言語モデルの両方を攻撃し、データの抽出可能性について調査する。微調整は少ないリソースを必要とし、その特殊データに対する有効性のために、小規模でも大規模でもますます利用されている。データキャリアとライセンス情報は、事前訓練されたモデルと微調整されたモデルから記憶される可能性が最も高い一方、後者は微調整後に忘れられる可能性が最も高い。
論文参考訳（メタデータ） (2025-01-29T09:17:30Z)
Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文参考訳（メタデータ） (2024-09-03T11:09:44Z)
Adaptive Pre-training Data Detection for Large Language Models via Surprising Tokens [1.2549198550400134]
大きな言語モデル(LLM)は広く使われているが、プライバシー、セキュリティ、著作権については不透明なトレーニングデータのために懸念されている。この問題に対する現在の解決策は、メンバーシップ推論攻撃(MIA)のような機械学習プライバシで探索されたテクニックを活用する。本稿では、この信頼性を軽減し、同定を効果的に増幅する適応型事前学習データ検出法を提案する。
論文参考訳（メタデータ） (2024-07-30T23:43:59Z)
Data Mixture Inference: What do BPE Tokenizers Reveal about their Training Data? [112.0422370149713]
我々は、トレーニングデータの分布的構成を明らかにすることを目的として、データ混合推論と呼ぶタスクに取り組む。従来見過ごされていた情報源であるバイトペアエンコーディング(BPE)トークン化器をベースとした,新たな攻撃手法を提案する。我々は,自然言語,プログラミング言語,データソースの既知混合に基づいて訓練されたトークン化剤に対して,高い精度で混合比を回復することを示す。
論文参考訳（メタデータ） (2024-07-23T16:13:22Z)
Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文参考訳（メタデータ） (2024-03-05T19:32:01Z)
Enhancing Consistency and Mitigating Bias: A Data Replay Approach for Incremental Learning [93.90047628101155]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。これを解決するために、新しいタスク学習中に過去のタスクからのデータを再生する手法を提案する。しかし、メモリの制約やデータプライバシーの問題により、実際には期待できない。
論文参考訳（メタデータ） (2024-01-12T12:51:12Z)
How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文参考訳（メタデータ） (2023-10-12T15:01:43Z)
D4: Improving LLM Pretraining via Document De-Duplication and Diversification [38.84592304799403]
事前訓練されたモデル埋め込みによる慎重なデータ選択は、トレーニングをスピードアップできることを示す。また、データ繰り返しがベースライントレーニングよりインテリジェントに優れていることも示しています。
論文参考訳（メタデータ） (2023-08-23T17:58:14Z)
Ethicist: Targeted Training Data Extraction Through Loss Smoothed Soft Prompting and Calibrated Confidence Estimation [56.57532238195446]
本研究では,対象とするトレーニングデータ抽出のためのEthicistという手法を提案する。メモリ化を誘発するため、モデルを固定しながらソフトなプロンプト埋め込みをチューニングする。我々は,最近提案された公開ベンチマークにおいて,エティシストが抽出性能を著しく向上することを示す。
論文参考訳（メタデータ） (2023-07-10T08:03:41Z)
Lifelong Language Pretraining with Distribution-Specialized Experts [39.86463645187337]
Lifelong Learningの目的は、情報システムが時間にわたって連続したデータストリームから学習できるようにすることだ。モデルキャパシティを動的に追加するMoEアーキテクチャであるLifelong-MoEを提案する。既存の生涯学習アプローチと比較して、Lifelong-MoEは、19の下流のNLPタスクにおいて、より優れた数ショットのパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-05-20T21:15:19Z)
On the Transferability of Pre-trained Language Models: A Study from Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文参考訳（メタデータ） (2021-09-08T10:39:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。