論文の概要: Detecting Memorization in Large Language Models
- arxiv url: http://arxiv.org/abs/2412.01014v1
- Date: Mon, 02 Dec 2024 00:17:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:51:30.360460
- Title: Detecting Memorization in Large Language Models
- Title(参考訳): 大規模言語モデルにおける暗記の検出
- Authors: Eduardo Slonski,
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理において驚くべき結果を得たが、トレーニングデータの一部を記憶する傾向にある。
従来の暗記検出方法は出力確率や損失関数に依存している。
LLM内のニューロンの活性化を調べることによって,記憶を正確に検出する解析手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large language models (LLMs) have achieved impressive results in natural language processing but are prone to memorizing portions of their training data, which can compromise evaluation metrics, raise privacy concerns, and limit generalization. Traditional methods for detecting memorization rely on output probabilities or loss functions, often lacking precision due to confounding factors like common language patterns. In this paper, we introduce an analytical method that precisely detects memorization by examining neuron activations within the LLM. By identifying specific activation patterns that differentiate between memorized and not memorized tokens, we train classification probes that achieve near-perfect accuracy. The approach can also be applied to other mechanisms, such as repetition, as demonstrated in this study, highlighting its versatility. Intervening on these activations allows us to suppress memorization without degrading overall performance, enhancing evaluation integrity by ensuring metrics reflect genuine generalization. Additionally, our method supports large-scale labeling of tokens and sequences, crucial for next-generation AI models, improving training efficiency and results. Our findings contribute to model interpretability and offer practical tools for analyzing and controlling internal mechanisms in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理において目覚ましい結果を得たが、評価指標を妥協し、プライバシの懸念を高め、一般化を制限することができるトレーニングデータの一部を記憶する傾向にある。
伝統的な暗記検出法は出力確率や損失関数に依存しており、しばしば共通言語パターンのような不明瞭な要因のために精度を欠いている。
本稿では,LLM内のニューロンの活性化を調べることによって,記憶を正確に検出する解析手法を提案する。
記憶されたトークンと記憶されていないトークンを区別する特定のアクティベーションパターンを同定することにより、ほぼ完璧な精度で分類プローブを訓練する。
このアプローチは、本研究で示されているように、反復のような他のメカニズムにも適用でき、その汎用性を強調している。
これらのアクティベーションに介入することで、全体的な性能を低下させることなく記憶を抑えることができ、メトリクスが真の一般化を反映することを保証することで、評価の整合性を高めることができる。
さらに,次世代AIモデルに不可欠なトークンとシーケンスの大規模ラベリングをサポートし,トレーニング効率と結果を改善する。
本研究はモデル解釈可能性に寄与し,LLMの内部機構を解析・制御するための実用的なツールを提供する。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Scalability of memorization-based machine unlearning [2.5782420501870296]
機械学習(MUL)は、事前訓練されたモデルからデータの特定のサブセットの影響を取り除くことに焦点を当てている。
記憶に基づく未学習法が開発され、未学習の品質に関して例外的な性能を示した。
我々は、一連の記憶スコアプロキシを用いて、最先端の記憶型MULアルゴリズムのスケーラビリティに挑戦する。
論文 参考訳(メタデータ) (2024-10-21T21:18:39Z) - Undesirable Memorization in Large Language Models: A Survey [5.659933808910005]
大規模言語モデル(LLM)における記憶の話題に関する知識体系化(SoK)を提案する。
記憶とは、モデルがトレーニングデータからフレーズやフレーズを保存し、再生する傾向があることである。
本研究は,記憶現象に寄与する要因の解析に続き,記憶現象を測定するために用いられる指標と方法について議論する。
論文 参考訳(メタデータ) (2024-10-03T16:34:46Z) - Demystifying Verbatim Memorization in Large Language Models [67.49068128909349]
大きな言語モデル(LLM)は、しばしば長いシーケンスを冗長に記憶し、しばしば深刻な法的およびプライバシー上の意味を持つ。
我々は, Pythia チェックポイントからのプレトレーニングをインジェクトシーケンスで継続することにより, 制御された環境下での動詞の暗記を学習する枠組みを開発する。
その結果,(1) 動詞の暗記には非自明な繰り返しが必要であり,(2) 後続の(おそらくはより良い)チェックポイントは,アウト・オブ・ディストリビューション・シーケンスであっても,動詞の列を暗記する傾向にあることがわかった。
論文 参考訳(メタデータ) (2024-07-25T07:10:31Z) - Self-training Large Language Models through Knowledge Detection [26.831873737733737]
大規模な言語モデル(LLM)は、ダウンストリームタスク間で印象的なパフォーマンスを達成するために、広範囲のラベル付きデータセットとトレーニング計算を必要とすることが多い。
本稿では,LLMが独自ラベルを自動でキュレートし,未知のデータサンプルを選択的に学習する自己学習パラダイムについて検討する。
経験的評価は、複数の被験者にまたがる世代における幻覚の減少に有意な改善を示した。
論文 参考訳(メタデータ) (2024-06-17T07:25:09Z) - Improving Input-label Mapping with Demonstration Replay for In-context
Learning [67.57288926736923]
In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。
Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。
ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-10-30T14:29:41Z) - Exploring Memorization in Fine-tuned Language Models [53.52403444655213]
我々は,タスク間の微調整中に,言語モデルの暗記を探索する最初の包括的分析を行う。
オープンソースと、さまざまなタスクにまたがる独自の微調整LMによる研究は、暗記が様々な微調整タスクの間に強い相違を示すことを示している。
本稿では,この課題の相違をスパース符号化理論を用いて直感的に説明し,暗記と注目スコア分布との強い相関関係を明らかにする。
論文 参考訳(メタデータ) (2023-10-10T15:41:26Z) - Quantifying and Analyzing Entity-level Memorization in Large Language
Models [4.59914731734176]
大規模言語モデル(LLM)は、トレーニングデータを記憶できることが証明されている。
記憶から生じるプライバシーリスクが注目されている。
実世界のシナリオに近い条件やメトリクスで記憶を定量化するための,詳細なエンティティレベルの定義を提案する。
論文 参考訳(メタデータ) (2023-08-30T03:06:47Z) - Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。
SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文 参考訳(メタデータ) (2023-03-03T02:07:40Z) - Exploring Memorization in Adversarial Training [58.38336773082818]
本稿では, 能力, 収束, 一般化, 特に強靭なオーバーフィッティングの深い理解を促進するための, 対人訓練(AT)における記憶効果について検討する。
本稿では,詳細な記憶分析を動機とした新たな緩和アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-03T05:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。