論文の概要: Emergent and Predictable Memorization in Large Language Models
- arxiv url: http://arxiv.org/abs/2304.11158v2
- Date: Wed, 31 May 2023 19:09:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 23:46:05.024513
- Title: Emergent and Predictable Memorization in Large Language Models
- Title(参考訳): 大規模言語モデルにおける創発的および予測可能な記憶
- Authors: Stella Biderman and USVSN Sai Prashanth and Lintang Sutawika and
Hailey Schoelkopf and Quentin Anthony and Shivanshu Purohit and Edward Raff
- Abstract要約: メモリ化、あるいはトレーニングデータから全シーケンスを出力する大規模言語モデルの傾向は、安全に言語モデルをデプロイする上で重要な関心事である。
我々は,大規模モデルのフルトレインタイム前にどのシーケンスを記憶するかを,低速トライアルの実行時の記憶挙動を外挿することによって予測する。
モデルとデータ間のメモリ化スコアの分布に関する新たな発見を提供する。
- 参考スコア(独自算出の注目度): 23.567027014457775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Memorization, or the tendency of large language models (LLMs) to output
entire sequences from their training data verbatim, is a key concern for safely
deploying language models. In particular, it is vital to minimize a model's
memorization of sensitive datapoints such as those containing personal
identifiable information (PII). The prevalence of such undesirable memorization
can pose issues for model trainers, and may even require discarding an
otherwise functional model. We therefore seek to predict which sequences will
be memorized before a large model's full train-time by extrapolating the
memorization behavior of lower-compute trial runs. We measure memorization of
the Pythia model suite and plot scaling laws for forecasting memorization,
allowing us to provide equi-compute recommendations to maximize the reliability
(recall) of such predictions. We additionally provide further novel discoveries
on the distribution of memorization scores across models and data. We release
all code and data necessary to reproduce the results in this paper at
https://github.com/EleutherAI/pythia
- Abstract(参考訳): 言語モデルが安全にデプロイされる上では、暗記化や、トレーニングデータからシーケンス全体を出力するllm(large language model)の傾向が重要な関心事である。
特に、個人識別情報(PII)を含むモデルにおいて、機密データポイントの記憶を最小化することが不可欠である。
このような望ましくない記憶の頻度は、モデルトレーナーに問題を引き起こす可能性があり、そうでない機能モデルを捨てる必要さえある。
そこで,本研究では,大規模モデルのフルトレインタイム前に,低速トライアルの記憶動作を補間することにより,どのシーケンスが記憶されるかを予測する。
我々は,Pythiaモデルスイートの記憶度を測定し,記憶度を予測するためのスケーリング法則をプロットし,そのような予測の信頼性(リコール)を最大化するための等価な勧告を提供する。
さらに、モデルとデータ間での暗記スコアの分布に関する新たな発見も提供する。
結果の再現に必要なすべてのコードとデータをhttps://github.com/eleutherai/pythiaで公開します。
関連論文リスト
- Scalable Extraction of Training Data from (Production) Language Models [93.7746567808049]
本稿では,学習データセットの事前知識を必要とせず,機械学習モデルに問い合わせることで,相手が効率的に抽出できる学習データについて検討する。
敵は、PythiaやGPT-Neoのようなオープンソースの言語モデル、LLaMAやFalconのようなセミオープンモデル、ChatGPTのようなクローズドモデルから、ギガバイトのトレーニングデータを抽出できることを示す。
論文 参考訳(メタデータ) (2023-11-28T18:47:03Z) - Quantifying and Analyzing Entity-level Memorization in Large Language
Models [4.59914731734176]
大規模言語モデル(LLM)は、トレーニングデータを記憶できることが証明されている。
記憶から生じるプライバシーリスクが注目されている。
実世界のシナリオに近い条件やメトリクスで記憶を定量化するための,詳細なエンティティレベルの定義を提案する。
論文 参考訳(メタデータ) (2023-08-30T03:06:47Z) - Ethicist: Targeted Training Data Extraction Through Loss Smoothed Soft
Prompting and Calibrated Confidence Estimation [56.57532238195446]
本研究では,対象とするトレーニングデータ抽出のためのEthicistという手法を提案する。
メモリ化を誘発するため、モデルを固定しながらソフトなプロンプト埋め込みをチューニングする。
我々は,最近提案された公開ベンチマークにおいて,エティシストが抽出性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-07-10T08:03:41Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Understanding Transformer Memorization Recall Through Idioms [42.28269674547148]
言語モデルにおける記憶されたシーケンスのリコールを探索し,特徴付けるための,最初の方法論的フレームワークを提供する。
本研究では,モデル内の隠れ表現を,出力確率分布の段階的改善として解釈することにより,内部予測構築過程を解析する。
本研究は,メモリリコールの理解に向けての第一歩を踏み出し,トランスフォーマー記憶の今後の研究のための方法論的基盤を提供する。
論文 参考訳(メタデータ) (2022-10-07T14:45:31Z) - Memorization Without Overfitting: Analyzing the Training Dynamics of
Large Language Models [64.22311189896888]
因果的および仮面的言語モデリング、モデルサイズ、およびトレーニングプロセス全体における正確な記憶について検討する。
驚くべきことに、大きなモデルは過度に適合する前にデータの大部分を記憶し、トレーニングプロセスを通して忘れる傾向にある。
論文 参考訳(メタデータ) (2022-05-22T07:43:50Z) - Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。
これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。
本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文 参考訳(メタデータ) (2022-02-15T18:48:31Z) - Counterfactual Memorization in Neural Language Models [91.8747020391287]
様々なNLPタスクで広く使用されている現代のニューラルネットワークモデルは、トレーニングデータからセンシティブな情報を記憶するリスクがある。
言語モデル記憶の以前の研究におけるオープンな疑問は、「一般的な」記憶の除去方法である。
トレーニング中に特定の文書が省略された場合、モデルの予測がどのように変化するかを特徴付ける反事実記憶の概念を定式化する。
論文 参考訳(メタデータ) (2021-12-24T04:20:57Z) - On Memorization in Probabilistic Deep Generative Models [4.987581730476023]
深層生成モデルの最近の進歩は、様々なアプリケーション領域において印象的な結果をもたらしている。
深層学習モデルが入力データの一部を記憶する可能性に触発されたため、記憶の仕組みを理解するための努力が増加している。
論文 参考訳(メタデータ) (2021-06-06T19:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。