論文の概要: Decoding Generalization from Memorization in Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2501.14687v1
- Date: Fri, 24 Jan 2025 18:01:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:57:51.466261
- Title: Decoding Generalization from Memorization in Deep Neural Networks
- Title(参考訳): ディープニューラルネットワークにおけるメモリ化からのデコード一般化
- Authors: Simran Ketha, Venkatakrishnan Ramaswamy,
- Abstract要約: 一般化されたディープニューラルネットワークは、近年のDeep Learningの劇的な成功の鍵となった。
ディープネットワークはトレーニングデータを記憶する能力を持っていることが知られており、クラスラベルが様々な程度にシャッフルされた破損したデータでトレーニングされたモデルに対して、完璧または高いトレーニング精度によって証明されている。
ここでは,これらのモデルが,記憶の面においても,その表現に情報を持っていることを示すことによって,後者の可能性を示す証拠を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Overparameterized Deep Neural Networks that generalize well have been key to the dramatic success of Deep Learning in recent years. The reasons for their remarkable ability to generalize are not well understood yet. It has also been known that deep networks possess the ability to memorize training data, as evidenced by perfect or high training accuracies on models trained with corrupted data that have class labels shuffled to varying degrees. Concomitantly, such models are known to generalize poorly, i.e. they suffer from poor test accuracies, due to which it is thought that the act of memorizing substantially degrades the ability to generalize. It has, however, been unclear why the poor generalization that accompanies such memorization, comes about. One possibility is that in the process of training with corrupted data, the layers of the network irretrievably reorganize their representations in a manner that makes generalization difficult. The other possibility is that the network retains significant ability to generalize, but the trained network somehow chooses to readout in a manner that is detrimental to generalization. Here, we provide evidence for the latter possibility by demonstrating, empirically, that such models possess information in their representations for substantially improved generalization, even in the face of memorization. Furthermore, such generalization abilities can be easily decoded from the internals of the trained model, and we build a technique to do so from the outputs of specific layers of the network. We demonstrate results on multiple models trained with a number of standard datasets.
- Abstract(参考訳): 近年のDeep Learningの劇的な成功の鍵は、よく一般化する過度にパラメータ化されたDeep Neural Networksにある。
それらの顕著な一般化能力の理由は、まだよく理解されていない。
ディープネットワークがトレーニングデータを記憶する能力を持っていることも知られており、クラスラベルが様々な程度にシャッフルされた破損したデータでトレーニングされたモデルに対して、完璧または高いトレーニング精度によって証明されている。
対照的に、そのようなモデルは、貧弱なテスト精度に苦しむこと、すなわち、記憶する行為は、一般化する能力を大幅に低下させると考えられていること、を一般化することが知られている。
しかし、なぜそのような暗記に付随する不適切な一般化が生じるのかははっきりしていない。
1つの可能性として、破損したデータを用いてトレーニングする過程で、ネットワークの層は、一般化を困難にするような方法で、その表現を不可分に再構成する。
その他の可能性として、ネットワークは大きな一般化能力を維持しているが、訓練されたネットワークは、何らかの形で、一般化に有害な方法で読み出しを選択している。
ここでは,これらのモデルが,記憶の面においても,その表現に情報を持っていることを示すことによって,後者の可能性を示す証拠を提供する。
さらに、そのような一般化能力は、訓練されたモデルの内部から容易に復号化することができ、ネットワークの特定の層から出力する手法を構築する。
複数の標準データセットでトレーニングされた複数のモデルで結果を示す。
関連論文リスト
- To grok or not to grok: Disentangling generalization and memorization on
corrupted algorithmic datasets [5.854190253899593]
本稿では,一般化表現を解析的に理解し,記憶表現と容易に区別できる解釈可能なモデルについて検討する。
i) ネットワークが破損したラベルを記憶し、同時に100%の一般化を達成できることが示される。
また、正規化が存在する場合、トレーニングダイナミクスは2つの連続的な段階を含むことを示す。
論文 参考訳(メタデータ) (2023-10-19T18:01:10Z) - On information captured by neural networks: connections with
memorization and generalization [4.082286997378594]
トレーニング中にニューラルネットワークが取得した情報について検討する。
非空の一般化ギャップ境界を導出することで、例情報性と一般化を関連付ける。
全体として、我々の研究結果はニューラルネットワークの一般化のメカニズムのより深い理解に寄与している。
論文 参考訳(メタデータ) (2023-06-28T04:46:59Z) - Generalization and Estimation Error Bounds for Model-based Neural
Networks [78.88759757988761]
スパースリカバリのためのモデルベースネットワークの一般化能力は、通常のReLUネットワークよりも優れていることを示す。
我々は,高一般化を保証したモデルベースネットワークの構築を可能にする実用的な設計規則を導出する。
論文 参考訳(メタデータ) (2023-04-19T16:39:44Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - The Curious Case of Benign Memorization [19.74244993871716]
データ拡張を含むトレーニングプロトコルの下で、ニューラルネットワークは、完全にランダムなラベルを良心的に記憶することを学ぶ。
深層モデルでは,暗記作業と特徴学習を異なる層に分散することで,信号からノイズを分離する驚くべき能力があることを実証する。
論文 参考訳(メタデータ) (2022-10-25T13:41:31Z) - Neural Networks and the Chomsky Hierarchy [27.470857324448136]
チョムスキー理論の知見が実際にニューラルネットワークの一般化の限界を予測できるかどうかを考察する。
膨大なデータとトレーニング時間さえも、非自明な一般化に繋がらない負の結果を示す。
この結果から,RNNとTransformerは非正規タスクの一般化に失敗し,構造化メモリで拡張されたネットワークのみがコンテキストレス・コンテキスト依存タスクの一般化に成功していることがわかった。
論文 参考訳(メタデータ) (2022-07-05T15:06:11Z) - Generalization Through The Lens Of Leave-One-Out Error [22.188535244056016]
本稿では,カーネルシステムにおけるディープニューラルネットワークの一般化能力を推定する方法として,残余誤差が有益であることを示す。
そこで本研究は,カーネルシステムにおけるディープニューラルネットワークの一般化能力を推定する方法として,残余誤差が有益であることを示す。
論文 参考訳(メタデータ) (2022-03-07T14:56:00Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Reasoning-Modulated Representations [85.08205744191078]
タスクが純粋に不透明でないような共通的な環境について研究する。
我々のアプローチは、新しいデータ効率表現学習の道を開く。
論文 参考訳(メタデータ) (2021-07-19T13:57:13Z) - Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。
最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文 参考訳(メタデータ) (2021-06-07T10:18:54Z) - Exploring Memorization in Adversarial Training [58.38336773082818]
本稿では, 能力, 収束, 一般化, 特に強靭なオーバーフィッティングの深い理解を促進するための, 対人訓練(AT)における記憶効果について検討する。
本稿では,詳細な記憶分析を動機とした新たな緩和アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-03T05:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。