Fugu-MT 論文翻訳(概要): Emergent and Predictable Memorization in Large Language Models

論文の概要: Emergent and Predictable Memorization in Large Language Models

arxiv url: http://arxiv.org/abs/2304.11158v2
Date: Wed, 31 May 2023 19:09:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-02 23:46:05.024513
Title: Emergent and Predictable Memorization in Large Language Models
Title（参考訳）: 大規模言語モデルにおける創発的および予測可能な記憶
Authors: Stella Biderman and USVSN Sai Prashanth and Lintang Sutawika and Hailey Schoelkopf and Quentin Anthony and Shivanshu Purohit and Edward Raff
Abstract要約: メモリ化、あるいはトレーニングデータから全シーケンスを出力する大規模言語モデルの傾向は、安全に言語モデルをデプロイする上で重要な関心事である。我々は,大規模モデルのフルトレインタイム前にどのシーケンスを記憶するかを,低速トライアルの実行時の記憶挙動を外挿することによって予測する。モデルとデータ間のメモリ化スコアの分布に関する新たな発見を提供する。
参考スコア（独自算出の注目度）: 23.567027014457775
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Memorization, or the tendency of large language models (LLMs) to output entire sequences from their training data verbatim, is a key concern for safely deploying language models. In particular, it is vital to minimize a model's memorization of sensitive datapoints such as those containing personal identifiable information (PII). The prevalence of such undesirable memorization can pose issues for model trainers, and may even require discarding an otherwise functional model. We therefore seek to predict which sequences will be memorized before a large model's full train-time by extrapolating the memorization behavior of lower-compute trial runs. We measure memorization of the Pythia model suite and plot scaling laws for forecasting memorization, allowing us to provide equi-compute recommendations to maximize the reliability (recall) of such predictions. We additionally provide further novel discoveries on the distribution of memorization scores across models and data. We release all code and data necessary to reproduce the results in this paper at https://github.com/EleutherAI/pythia
Abstract（参考訳）: 言語モデルが安全にデプロイされる上では、暗記化や、トレーニングデータからシーケンス全体を出力するllm(large language model)の傾向が重要な関心事である。特に、個人識別情報(PII)を含むモデルにおいて、機密データポイントの記憶を最小化することが不可欠である。このような望ましくない記憶の頻度は、モデルトレーナーに問題を引き起こす可能性があり、そうでない機能モデルを捨てる必要さえある。そこで,本研究では,大規模モデルのフルトレインタイム前に,低速トライアルの記憶動作を補間することにより,どのシーケンスが記憶されるかを予測する。我々は,Pythiaモデルスイートの記憶度を測定し,記憶度を予測するためのスケーリング法則をプロットし,そのような予測の信頼性(リコール)を最大化するための等価な勧告を提供する。さらに、モデルとデータ間での暗記スコアの分布に関する新たな発見も提供する。結果の再現に必要なすべてのコードとデータをhttps://github.com/eleutherai/pythiaで公開します。

関連論文リスト

Is Gradient Ascent Really Necessary? Memorize to Forget for Machine Unlearning [71.96329385684395]
勾配上昇(GA)に代わるモデル外挿法を提案する。言い換えると、記憶モデルから参照モデルへの外挿によって、忘れモデルが得られる。モデル外挿法の実装はシンプルで効率的であり、トレーニング全体を通して効果的に収束し、未学習のパフォーマンスを向上させることができる。
論文参考訳（メタデータ） (2026-02-06T07:11:27Z)
Leverage Unlearning to Sanitize LLMs [0.3867363075280543]
言語モデルを衛生化するための未学習アプローチであるSANIを提案する。 1) モデルの最後の層にある特定のニューロンをリセットして微細な情報の記憶を妨害し、2) 機密情報を記憶するのを避けながらモデルを微調整する。結果から, 未学習のエポックがわずかに少なければ, モデルは衛生化され, リグルジテーションの数は劇的に減少することがわかった。
論文参考訳（メタデータ） (2025-10-24T10:28:40Z)
How much do language models memorize? [104.22411031699127]
我々は暗記を意図しない暗記と一般化の2つの構成要素に分けた。サイズが大きくなるデータセット上で言語モデルをトレーニングし、そのキャパシティが満たされるまでモデルを記憶していることを観察する。モデルキャパシティとデータサイズとメンバシップ推論に関する一連のスケーリング法則を作成した。
論文参考訳（メタデータ） (2025-05-30T17:34:03Z)
Memorization or Interpolation ? Detecting LLM Memorization through Input Perturbation Analysis [8.725781605542675]
大規模言語モデル(LLM)は,大規模なデータセットのトレーニングを通じて,優れたパフォーマンスを実現する。 LLMは、真の一般化ではなく、トレーニングデータの冗長な再現のような振る舞いを示すことができる。本稿では, LLMにおける暗記検出のための新しい手法であるPEARLを紹介する。
論文参考訳（メタデータ） (2025-05-05T20:42:34Z)
Measuring Déjà vu Memorization Efficiently [38.201992966736114]
近年の研究では、表現学習モデルが誤ってトレーニングデータを記憶していることが示されている。そこで本研究では,データセットレベルの相関を推定する手法を提案する。これらは、再訓練することなく、市販モデルの記憶能力の近似に使用できる。
論文参考訳（メタデータ） (2025-04-08T03:55:20Z)
AutoElicit: Using Large Language Models for Expert Prior Elicitation in Predictive Modelling [53.54623137152208]
我々はAutoElicitを導入し、大規模言語モデルから知識を抽出し、予測モデルのための事前構築を行う。これらの先行情報は情報的であり、自然言語を用いて洗練できることを示す。 AutoElicitは、非形式的な事前よりもエラーを大幅に減らし、ラベルを減らし、コンテクスト内学習を一貫して上回ります。
論文参考訳（メタデータ） (2024-11-26T10:13:39Z)
A Geometric Framework for Understanding Memorization in Generative Models [11.263296715798374]
近年の研究では、深層生成モデルにより、デプロイ時にトレーニングデータポイントを記憶・再生することが可能であることが示されている。これらの知見は、特に暗記によって引き起こされる法的およびプライバシー上のリスクを考慮して、生成モデルのユーザビリティを疑問視する。本稿では, 多様体の暗記仮説(MMH)を, 暗記を推論する明快な言語として活用する幾何学的枠組みを提案する。
論文参考訳（メタデータ） (2024-10-31T18:09:01Z)
Adaptive Pre-training Data Detection for Large Language Models via Surprising Tokens [1.2549198550400134]
大きな言語モデル(LLM)は広く使われているが、プライバシー、セキュリティ、著作権については不透明なトレーニングデータのために懸念されている。この問題に対する現在の解決策は、メンバーシップ推論攻撃(MIA)のような機械学習プライバシで探索されたテクニックを活用する。本稿では、この信頼性を軽減し、同定を効果的に増幅する適応型事前学習データ検出法を提案する。
論文参考訳（メタデータ） (2024-07-30T23:43:59Z)
Demystifying Verbatim Memorization in Large Language Models [67.49068128909349]
大きな言語モデル(LLM)は、しばしば長いシーケンスを冗長に記憶し、しばしば深刻な法的およびプライバシー上の意味を持つ。我々は, Pythia チェックポイントからのプレトレーニングをインジェクトシーケンスで継続することにより, 制御された環境下での動詞の暗記を学習する枠組みを開発する。その結果,(1) 動詞の暗記には非自明な繰り返しが必要であり,(2) 後続の(おそらくはより良い)チェックポイントは,アウト・オブ・ディストリビューション・シーケンスであっても,動詞の列を暗記する傾向にあることがわかった。
論文参考訳（メタデータ） (2024-07-25T07:10:31Z)
Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。本研究は, より単純で知識集約的なタスクにおいて, 記憶がより大きな役割を担い, 一般化が, より困難で推論に基づくタスクの鍵であることを示す。
論文参考訳（メタデータ） (2024-07-20T21:24:40Z)
Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文参考訳（メタデータ） (2024-06-06T17:59:09Z)
Scalable Extraction of Training Data from (Production) Language Models [93.7746567808049]
本稿では,学習データセットの事前知識を必要とせず,機械学習モデルに問い合わせることで,相手が効率的に抽出できる学習データについて検討する。敵は、PythiaやGPT-Neoのようなオープンソースの言語モデル、LLaMAやFalconのようなセミオープンモデル、ChatGPTのようなクローズドモデルから、ギガバイトのトレーニングデータを抽出できることを示す。
論文参考訳（メタデータ） (2023-11-28T18:47:03Z)
Quantifying and Analyzing Entity-level Memorization in Large Language Models [4.59914731734176]
大規模言語モデル(LLM)は、トレーニングデータを記憶できることが証明されている。記憶から生じるプライバシーリスクが注目されている。実世界のシナリオに近い条件やメトリクスで記憶を定量化するための,詳細なエンティティレベルの定義を提案する。
論文参考訳（メタデータ） (2023-08-30T03:06:47Z)
Ethicist: Targeted Training Data Extraction Through Loss Smoothed Soft Prompting and Calibrated Confidence Estimation [56.57532238195446]
本研究では,対象とするトレーニングデータ抽出のためのEthicistという手法を提案する。メモリ化を誘発するため、モデルを固定しながらソフトなプロンプト埋め込みをチューニングする。我々は,最近提案された公開ベンチマークにおいて,エティシストが抽出性能を著しく向上することを示す。
論文参考訳（メタデータ） (2023-07-10T08:03:41Z)
Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文参考訳（メタデータ） (2022-02-15T18:48:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。