論文の概要: Guess or Recall? Training CNNs to Classify and Localize Memorization in LLMs
- arxiv url: http://arxiv.org/abs/2508.02573v1
- Date: Mon, 04 Aug 2025 16:27:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.429022
- Title: Guess or Recall? Training CNNs to Classify and Localize Memorization in LLMs
- Title(参考訳): ガイドかリコールか? LLMにおける記憶の分類とローカライズのためのCNNの訓練
- Authors: Jérémie Dentan, Davide Buscaldi, Sonia Vanier,
- Abstract要約: 大規模言語モデルにおける動詞の暗記は、異なる基盤機構を含む多面的現象である。
既存の分類学で記述された様々な形態の記憶を解析するための新しい手法を提案する。
我々は,各形態の記憶にかかわる注意重みの領域をローカライズする,独自の視覚的解釈可能性技術を開発した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Verbatim memorization in Large Language Models (LLMs) is a multifaceted phenomenon involving distinct underlying mechanisms. We introduce a novel method to analyze the different forms of memorization described by the existing taxonomy. Specifically, we train Convolutional Neural Networks (CNNs) on the attention weights of the LLM and evaluate the alignment between this taxonomy and the attention weights involved in decoding. We find that the existing taxonomy performs poorly and fails to reflect distinct mechanisms within the attention blocks. We propose a new taxonomy that maximizes alignment with the attention weights, consisting of three categories: memorized samples that are guessed using language modeling abilities, memorized samples that are recalled due to high duplication in the training set, and non-memorized samples. Our results reveal that few-shot verbatim memorization does not correspond to a distinct attention mechanism. We also show that a significant proportion of extractable samples are in fact guessed by the model and should therefore be studied separately. Finally, we develop a custom visual interpretability technique to localize the regions of the attention weights involved in each form of memorization.
- Abstract(参考訳): LLM(Large Language Models)における動詞の暗記(Verbatim memorization)は、異なる基盤機構を含む多面的現象である。
既存の分類学で記述された様々な形態の記憶を解析するための新しい手法を提案する。
具体的には、LLMの注意重みについて畳み込みニューラルネットワーク(CNN)を訓練し、この分類と復号に関わる注意重みとの整合性を評価する。
既存の分類は性能が悪く、注意ブロック内の異なるメカニズムを反映できないことがわかった。
本稿では,言語モデリング能力を用いて推測される記憶標本と,トレーニングセットの重複度が高いために記憶される記憶標本と,非記憶標本の3つのカテゴリからなる,注意重みとの整合性を最大化する新しい分類法を提案する。
以上の結果から,単発動詞の暗記は注意機構と一致しないことが明らかとなった。
また, 抽出可能な試料のかなりの割合は, 実際にモデルによって推測され, 別々に研究されるべきであることを示す。
最後に,各形態の記憶に係わる注意重みの領域を局所化するための視覚的解釈可能性技術を開発した。
関連論文リスト
- A Geometric Framework for Understanding Memorization in Generative Models [11.263296715798374]
近年の研究では、深層生成モデルにより、デプロイ時にトレーニングデータポイントを記憶・再生することが可能であることが示されている。
これらの知見は、特に暗記によって引き起こされる法的およびプライバシー上のリスクを考慮して、生成モデルのユーザビリティを疑問視する。
本稿では, 多様体の暗記仮説(MMH)を, 暗記を推論する明快な言語として活用する幾何学的枠組みを提案する。
論文 参考訳(メタデータ) (2024-10-31T18:09:01Z) - Exploring Local Memorization in Diffusion Models via Bright Ending Attention [62.979954692036685]
テキスト・画像拡散モデルにおける「右端」(BE)異常は、トレーニング画像の記憶に起因する。
本稿では,BEを既存のフレームワークに統合する簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-29T02:16:01Z) - Predicting memorization within Large Language Models fine-tuned for classification [0.0]
大規模言語モデルはトレーニングデータのかなりの割合を記憶しており、推論時に開示されると深刻な脅威となる。
そこで本研究では, LLMにおける暗記標本を, 分類タスクのための微調整で検出する手法を提案する。
提案手法は,新たな理論的結果によって支持され,計算予算の低さが要求される。
論文 参考訳(メタデータ) (2024-09-27T15:53:55Z) - LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - Demystifying Verbatim Memorization in Large Language Models [67.49068128909349]
大きな言語モデル(LLM)は、しばしば長いシーケンスを冗長に記憶し、しばしば深刻な法的およびプライバシー上の意味を持つ。
我々は, Pythia チェックポイントからのプレトレーニングをインジェクトシーケンスで継続することにより, 制御された環境下での動詞の暗記を学習する枠組みを開発する。
その結果,(1) 動詞の暗記には非自明な繰り返しが必要であり,(2) 後続の(おそらくはより良い)チェックポイントは,アウト・オブ・ディストリビューション・シーケンスであっても,動詞の列を暗記する傾向にあることがわかった。
論文 参考訳(メタデータ) (2024-07-25T07:10:31Z) - Recite, Reconstruct, Recollect: Memorization in LMs as a Multifaceted Phenomenon [22.271015657198927]
我々は記憶を分類学に分解する:高度に複製された配列のリサイクリング、本質的に予測可能なシーケンスの再構築、そしてどちらもないシーケンスのリコール。
依存関係を解析し, 予測モデルの重みを検査することにより, 異なる要因が, 分類学的カテゴリーによって異なる記憶可能性に影響を与えることがわかった。
論文 参考訳(メタデータ) (2024-06-25T17:32:16Z) - A Multi-Perspective Analysis of Memorization in Large Language Models [10.276594755936529]
大規模言語モデル(LLM)は様々な分野で前例のない性能を示す。
LLMはそれらをトレーニングするのと同じコンテンツを生成することができる。
この研究は、様々な観点から記憶を包括的に議論した。
論文 参考訳(メタデータ) (2024-05-19T15:00:50Z) - Exploring Memorization in Fine-tuned Language Models [53.52403444655213]
我々は,タスク間の微調整中に,言語モデルの暗記を探索する最初の包括的分析を行う。
オープンソースと、さまざまなタスクにまたがる独自の微調整LMによる研究は、暗記が様々な微調整タスクの間に強い相違を示すことを示している。
本稿では,この課題の相違をスパース符号化理論を用いて直感的に説明し,暗記と注目スコア分布との強い相関関係を明らかにする。
論文 参考訳(メタデータ) (2023-10-10T15:41:26Z) - Measures of Information Reflect Memorization Patterns [53.71420125627608]
異なるニューロンの活性化パターンの多様性は、モデル一般化と記憶の反映であることを示す。
重要なことは、情報組織が記憶の2つの形態を指していることである。
論文 参考訳(メタデータ) (2022-10-17T20:15:24Z) - Memorization Without Overfitting: Analyzing the Training Dynamics of
Large Language Models [64.22311189896888]
因果的および仮面的言語モデリング、モデルサイズ、およびトレーニングプロセス全体における正確な記憶について検討する。
驚くべきことに、大きなモデルは過度に適合する前にデータの大部分を記憶し、トレーニングプロセスを通して忘れる傾向にある。
論文 参考訳(メタデータ) (2022-05-22T07:43:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。