論文の概要: Can Neural Network Memorization Be Localized?
- arxiv url: http://arxiv.org/abs/2307.09542v1
- Date: Tue, 18 Jul 2023 18:36:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 16:25:33.976565
- Title: Can Neural Network Memorization Be Localized?
- Title(参考訳): ニューラルネットワークの記憶はローカライズできるか?
- Authors: Pratyush Maini, Michael C. Mozer, Hanie Sedghi, Zachary C. Lipton, J.
Zico Kolter, Chiyuan Zhang
- Abstract要約: 記憶化は、モデルの様々な層において、小さなニューロンの集合に限られる現象であることを示す。
我々は、サンプルの記憶をai決定されたニューロンに直接記憶できる新しい形式のドロップアウト -- $textitexample-tied dropout$を提案する。
- 参考スコア(独自算出の注目度): 102.68044087952913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent efforts at explaining the interplay of memorization and generalization
in deep overparametrized networks have posited that neural networks
$\textit{memorize}$ "hard" examples in the final few layers of the model.
Memorization refers to the ability to correctly predict on $\textit{atypical}$
examples of the training set. In this work, we show that rather than being
confined to individual layers, memorization is a phenomenon confined to a small
set of neurons in various layers of the model. First, via three experimental
sources of converging evidence, we find that most layers are redundant for the
memorization of examples and the layers that contribute to example memorization
are, in general, not the final layers. The three sources are $\textit{gradient
accounting}$ (measuring the contribution to the gradient norms from memorized
and clean examples), $\textit{layer rewinding}$ (replacing specific model
weights of a converged model with previous training checkpoints), and
$\textit{retraining}$ (training rewound layers only on clean examples). Second,
we ask a more generic question: can memorization be localized
$\textit{anywhere}$ in a model? We discover that memorization is often confined
to a small number of neurons or channels (around 5) of the model. Based on
these insights we propose a new form of dropout -- $\textit{example-tied
dropout}$ that enables us to direct the memorization of examples to an apriori
determined set of neurons. By dropping out these neurons, we are able to reduce
the accuracy on memorized examples from $100\%\to3\%$, while also reducing the
generalization gap.
- Abstract(参考訳): 深層パラメータネットワークにおける記憶と一般化の相互作用を説明する最近の取り組みは、モデルの最後のいくつかの層でニューラルネットワークが$\textit{memorize}$ "hard" の例を示している。
Memorizationは、トレーニングセットの例を$\textit{atypical}$で正確に予測する機能を指す。
本研究では、個々の層に制限されるのではなく、記憶はモデルの様々な層の小さな集合のニューロンに限定される現象であることを示す。
まず、三つの実験的な証拠源を通して、ほとんどの層は例の記憶に冗長であり、例の記憶に寄与する層は一般に最終層ではないことが分かる。
3つのソースは、$\textit{gradient accounting}$ (記憶とクリーンな例からの勾配ノルムへの貢献を計測する)、$\textit{layer rewinding}$ (以前のトレーニングチェックポイントで収束したモデルの特定のモデル重みをリプレース)、$\textit{retraining}$ (クリーンな例でのみリウォード層をトレーニングする)である。
第二に、より一般的な質問をする: メモリ化は、モデルで$\textit{anywhere}$をローカライズできるか?
記憶はモデルの少数のニューロンやチャネル(約5つ)に限定されることが多い。
これらの知見に基づき、我々は新しい形式のドロップアウト -- $\textit{example-tied dropout}$を提案する。
これらのニューロンを取り除くことで、記憶された例の精度を100\%\to3\%$に低下させると同時に、一般化ギャップを低減できる。
関連論文リスト
- Localizing Paragraph Memorization in Language Models [17.943637462569537]
記憶化は複数の層やモデル成分にまたがるが,記憶化段落の勾配は識別可能な空間パターンを有することを示す。
また、記憶された継続は、学習が困難であるだけでなく、記憶されていないものよりも腐敗することも示している。
論文 参考訳(メタデータ) (2024-03-28T21:53:24Z) - What do larger image classifiers memorise? [64.01325988398838]
トレーニング例は, モデルサイズにまたがって, 予想外の多彩な記憶軌跡を示す。
有効で一般的なモデル圧縮手法である知識蒸留は,記憶を阻害する傾向があり,一般化も改善する。
論文 参考訳(メタデータ) (2023-10-09T01:52:07Z) - On the Role of Neural Collapse in Meta Learning Models for Few-shot
Learning [0.9729803206187322]
この研究は、数ショット学習のためのメタラーニングフレームワークにおける神経崩壊の性質を初めて探求し、理解したものである。
我々は,オムニグロットデータセットを数ショット設定で研究し,神経崩壊現象を研究する。
論文 参考訳(メタデータ) (2023-09-30T18:02:51Z) - Characterizing Datapoints via Second-Split Forgetting [93.99363547536392]
我々は、オリジナルのトレーニング例が忘れられた後(もしあれば)のエポックを追跡する補足的メトリックである$$-second-$split$$forgetting$$$time$ (SSFT)を提案する。
例えば$mislabeled$の例はすぐに忘れられ、$rare$の例は比較的ゆっくりと忘れられています。
SSFTは、(i)間違ったラベル付きサンプルを識別し、その除去により一般化が向上し、(ii)障害モードに関する洞察を提供する。
論文 参考訳(メタデータ) (2022-10-26T21:03:46Z) - The Curious Case of Benign Memorization [19.74244993871716]
データ拡張を含むトレーニングプロトコルの下で、ニューラルネットワークは、完全にランダムなラベルを良心的に記憶することを学ぶ。
深層モデルでは,暗記作業と特徴学習を異なる層に分散することで,信号からノイズを分離する驚くべき能力があることを実証する。
論文 参考訳(メタデータ) (2022-10-25T13:41:31Z) - Measures of Information Reflect Memorization Patterns [53.71420125627608]
異なるニューロンの活性化パターンの多様性は、モデル一般化と記憶の反映であることを示す。
重要なことは、情報組織が記憶の2つの形態を指していることである。
論文 参考訳(メタデータ) (2022-10-17T20:15:24Z) - Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。
これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。
本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文 参考訳(メタデータ) (2022-02-15T18:48:31Z) - Counterfactual Memorization in Neural Language Models [91.8747020391287]
様々なNLPタスクで広く使用されている現代のニューラルネットワークモデルは、トレーニングデータからセンシティブな情報を記憶するリスクがある。
言語モデル記憶の以前の研究におけるオープンな疑問は、「一般的な」記憶の除去方法である。
トレーニング中に特定の文書が省略された場合、モデルの予測がどのように変化するかを特徴付ける反事実記憶の概念を定式化する。
論文 参考訳(メタデータ) (2021-12-24T04:20:57Z) - Online Memorization of Random Firing Sequences by a Recurrent Neural
Network [12.944868613449218]
学習/記憶の2つのモードが考慮されている: 1つ目のモードは厳密にオンラインであり、1つのモードがデータを通過する一方、2番目のモードはデータを通る複数のパスを使用する。
どちらのモードでも、学習は厳密な局所的(準ヘビアン):任意の段階において、前段階のニューロンの発火(または発火)と現在の段階の発火(または発火)の間の重みだけを変更する。
論文 参考訳(メタデータ) (2020-01-09T11:02:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。