論文の概要: Deep Networks Always Grok and Here is Why
- arxiv url: http://arxiv.org/abs/2402.15555v2
- Date: Thu, 6 Jun 2024 18:33:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 19:47:50.280817
- Title: Deep Networks Always Grok and Here is Why
- Title(参考訳): ディープ・ネットワークが常に成長している理由
- Authors: Ahmed Imtiaz Humayun, Randall Balestriero, Richard Baraniuk,
- Abstract要約: グローキング(英: Grokking)または遅延一般化(英: delay generalization)とは、ディープニューラルネットワーク(DNN)における一般化が、ほぼゼロのトレーニングエラーを達成してから長く経過する現象である。
我々は、グルーキングが実際ずっと広く、幅広い実践的な設定で実現されていることを実証した。
- 参考スコア(独自算出の注目度): 15.327649172531606
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Grokking, or delayed generalization, is a phenomenon where generalization in a deep neural network (DNN) occurs long after achieving near zero training error. Previous studies have reported the occurrence of grokking in specific controlled settings, such as DNNs initialized with large-norm parameters or transformers trained on algorithmic datasets. We demonstrate that grokking is actually much more widespread and materializes in a wide range of practical settings, such as training of a convolutional neural network (CNN) on CIFAR10 or a Resnet on Imagenette. We introduce the new concept of delayed robustness, whereby a DNN groks adversarial examples and becomes robust, long after interpolation and/or generalization. We develop an analytical explanation for the emergence of both delayed generalization and delayed robustness based on the local complexity of a DNN's input-output mapping. Our local complexity measures the density of so-called linear regions (aka, spline partition regions) that tile the DNN input space and serves as a utile progress measure for training. We provide the first evidence that, for classification problems, the linear regions undergo a phase transition during training whereafter they migrate away from the training samples (making the DNN mapping smoother there) and towards the decision boundary (making the DNN mapping less smooth there). Grokking occurs post phase transition as a robust partition of the input space thanks to the linearization of the DNN mapping around the training points. Website: https://bit.ly/grok-adversarial
- Abstract(参考訳): グローキング(英: Grokking)または遅延一般化(英: delay generalization)とは、ディープニューラルネットワーク(DNN)における一般化が、ほぼゼロのトレーニングエラーを達成してから長く経過する現象である。
従来の研究では、DNNが大きなノームパラメータで初期化されたり、アルゴリズムデータセットでトレーニングされたトランスフォーマーなど、特定の制御された設定でグラッキングが発生することが報告されてきた。
我々は、CIFAR10上の畳み込みニューラルネットワーク(CNN)のトレーニングやImagenette上のResnetなど、グルーキングが実際にはるかに広く、幅広い実践的な環境で実現されていることを実証した。
補間や一般化から長い年月を経て, DNN が敵の例をつかみ, 頑健になるような, 遅延ロバスト性という新たな概念を導入する。
我々は,DNNの入出力マッピングの局所的複雑さに基づいて,遅延一般化と遅延ロバスト性の両方の出現を解析的に説明する。
我々の局所的複雑性は、DNN入力空間をタイル状にするいわゆる線形領域(いわゆるスプライン分割領域)の密度を測定し、トレーニングのための実用性向上尺度として機能する。
分類問題に対して, 線形領域は, トレーニングサンプル(DNNマッピングをよりスムーズにする) から決定境界(DNNマッピングをよりスムーズにする) へ移行した後に, トレーニング中に相転移することを示す最初の証拠を提供する。
グロッキングは、トレーニングポイント周辺のDNNマッピングの線形化により、入力空間の堅牢な分割として相転移が起こる。
ウェブサイト:https://bit.ly/grok-adversarial
関連論文リスト
- On Generalization Bounds for Deep Compound Gaussian Neural Networks [1.4425878137951238]
Unrolled Deep Neural Network(DNN)は、標準的なDNNよりも優れた解釈性と優れた経験的パフォーマンスを提供する。
本稿では,複合ガウス事前情報に基づく非学習型DNNのクラスに対する新しい一般化誤差境界を開発する。
現実的な条件下では、最悪の場合、一般化誤差は信号次元で$mathcalO(nsqrt(n))$、ネットワークサイズで$mathcalO(($Network Size$)3/2)$である。
論文 参考訳(メタデータ) (2024-02-20T16:01:39Z) - DNN Training Acceleration via Exploring GPGPU Friendly Sparsity [16.406482603838157]
本稿では、従来のランダムなニューロンやシナプスのドロップアウトを、通常のオンラインの行ベースもしくはタイルベースのドロップアウトパターンに置き換える近似ランダムドロップアウトを提案する。
次に,SGDに基づく探索アルゴリズムを開発し,行ベースあるいはタイルベースのドロップアウトパターンの分布を生成し,潜在的な精度損失を補う。
また,入力特徴図をその感度に基づいて動的にドロップアウトし,前向きおよび後向きのトレーニングアクセラレーションを実現するための感度対応ドロップアウト手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T01:32:03Z) - Disentangling deep neural networks with rectified linear units using
duality [4.683806391173103]
線形整流ユニット(ReLU)を用いたディープニューラルネットワーク(DNN)の解釈可能な新しい実装を提案する。
我々は、大域プールとスキップ接続との畳み込みが、それぞれ回転不変性とアンサンブル構造をニューラルパスカーネル(NPK)にもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-06T16:51:59Z) - Generalizing Neural Networks by Reflecting Deviating Data in Production [15.498447555957773]
本稿では,DNNに対する予期せぬ実行時入力によるDNNの誤予測を緩和する実行時アプローチを提案する。
我々は,シームズネットワークが学習した距離測定値に基づく分布解析器を用いて,意味的に保存されていない入力を識別する。
我々のアプローチは、これらの予期せぬ入力を、類似のセマンティクスを持つと認識されるトレーニングセットから入力に変換する。
論文 参考訳(メタデータ) (2021-10-06T13:05:45Z) - Shift-Robust GNNs: Overcoming the Limitations of Localized Graph
Training data [52.771780951404565]
Shift-Robust GNN (SR-GNN) は、バイアス付きトレーニングデータとグラフの真の推論分布の分布差を考慮に入れた設計である。
SR-GNNが他のGNNベースラインを精度良く上回り、バイアス付きトレーニングデータから生じる負の効果の少なくとも40%を排除していることを示す。
論文 参考訳(メタデータ) (2021-08-02T18:00:38Z) - Wide and Deep Graph Neural Network with Distributed Online Learning [174.8221510182559]
グラフニューラルネットワーク(GNN)は、ネットワークデータから表現を学習するための、自然に分散したアーキテクチャである。
オンライン学習は、この問題を克服するためにテスト時にGNNを再トレーニングするために利用することができる。
本稿では,分散オンライン学習機構で更新可能な新しいアーキテクチャであるWide and Deep GNN(WD-GNN)を開発する。
論文 参考訳(メタデータ) (2021-07-19T23:56:48Z) - Understanding and Improving Early Stopping for Learning with Noisy
Labels [63.0730063791198]
ディープニューラルネットワーク(DNN)の記憶効果は、多くの最先端のラベルノイズ学習法において重要な役割を担っている。
現在の手法は一般的にDNN全体を考慮して早期停止点を決定する。
我々は、DNNを異なる部分に分割し、この問題に対処するよう徐々に訓練することを提案する。
論文 参考訳(メタデータ) (2021-06-30T07:18:00Z) - Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。
最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文 参考訳(メタデータ) (2021-06-07T10:18:54Z) - Online Limited Memory Neural-Linear Bandits with Likelihood Matching [53.18698496031658]
本研究では,探索学習と表現学習の両方が重要な役割を果たす課題を解決するために,ニューラルネットワークの帯域について検討する。
破滅的な忘れ込みに対して耐性があり、完全にオンラインである可能性の高いマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T14:19:07Z) - Overcoming Catastrophic Forgetting in Graph Neural Networks [50.900153089330175]
破滅的な忘れは、ニューラルネットワークが新しいタスクを学ぶ前に学んだ知識を「忘れる」傾向を指します。
本稿では,この問題を克服し,グラフニューラルネットワーク(GNN)における継続学習を強化するための新しいスキームを提案する。
私たちのアプローチの中心には、トポロジ認識重量保存(TWP)と呼ばれる汎用モジュールがあります。
論文 参考訳(メタデータ) (2020-12-10T22:30:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。