論文の概要: Omnigrok: Grokking Beyond Algorithmic Data
- arxiv url: http://arxiv.org/abs/2210.01117v2
- Date: Thu, 23 Mar 2023 13:42:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 18:19:12.276260
- Title: Omnigrok: Grokking Beyond Algorithmic Data
- Title(参考訳): omnigrok:アルゴリズムデータを超えたグロークキング
- Authors: Ziming Liu, Eric J. Michaud, Max Tegmark
- Abstract要約: ニューラルネットワークのロスランドスケープを解析することで、グルーキングを理解することを目指している。
トレーニングとテストの損失(モデルウェイト基準)は典型的には"L"と"U"に似ているので、このことを"LUメカニズム"と呼んでいる。
逆方向では、アルゴリズムデータセットのグラッキングを排除できます。
- 参考スコア(独自算出の注目度): 5.15188009671301
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grokking, the unusual phenomenon for algorithmic datasets where
generalization happens long after overfitting the training data, has remained
elusive. We aim to understand grokking by analyzing the loss landscapes of
neural networks, identifying the mismatch between training and test losses as
the cause for grokking. We refer to this as the "LU mechanism" because training
and test losses (against model weight norm) typically resemble "L" and "U",
respectively. This simple mechanism can nicely explain many aspects of
grokking: data size dependence, weight decay dependence, the emergence of
representations, etc. Guided by the intuitive picture, we are able to induce
grokking on tasks involving images, language and molecules. In the reverse
direction, we are able to eliminate grokking for algorithmic datasets. We
attribute the dramatic nature of grokking for algorithmic datasets to
representation learning.
- Abstract(参考訳): トレーニングデータに過度に適合した後、一般化が起こるアルゴリズムデータセットの異常な現象であるGrokkingは、いまだ解明されていない。
本研究の目的は,ニューラルネットワークの損失状況を分析し,学習とテストのミスマッチをグロッキングの原因とすることでグロッキングを理解することである。
トレーニングとテストの損失(モデルウェイト標準)がそれぞれ「L」と「U」によく似ているため、これを「LU機構」と呼ぶ。
この単純なメカニズムは、データサイズ依存、重量減衰依存、表現の出現など、グルーキングの多くの側面をうまく説明できます。
直感的な図に導かれることで、画像、言語、分子を含むタスクのグロッキングを誘発することができる。
逆方向では、アルゴリズムデータセットのグラッキングを排除できます。
グラフキングの劇的な性質を,アルゴリズムデータセットから表現学習へ分類する。
関連論文リスト
- Understanding Grokking Through A Robustness Viewpoint [3.23379981095083]
ニューラルネットワークの一般的な$l$ノルム(メトリック)は、実際にはグルークするのに十分な条件であることを示す。
我々は、ロバストネスと情報理論に基づく新しいメトリクスを提案し、我々の新しいメトリクスがグラッキング現象とよく相関し、グラッキングを予測するのに使用できることを発見した。
論文 参考訳(メタデータ) (2023-11-11T15:45:44Z) - Grokking in Linear Estimators -- A Solvable Model that Groks without
Understanding [1.1510009152620668]
グロキングは、トレーニングデータに適合した後、モデルが一般化することを学習する場所である。
線形処理を行う線形ネットワークにおいて、グラッキングが驚くほど起こりうることを解析的および数値的に示す。
論文 参考訳(メタデータ) (2023-10-25T08:08:44Z) - To grok or not to grok: Disentangling generalization and memorization on
corrupted algorithmic datasets [5.854190253899593]
本稿では,一般化表現を解析的に理解し,記憶表現と容易に区別できる解釈可能なモデルについて検討する。
i) ネットワークが破損したラベルを記憶し、同時に100%の一般化を達成できることが示される。
また、正規化が存在する場合、トレーニングダイナミクスは2つの連続的な段階を含むことを示す。
論文 参考訳(メタデータ) (2023-10-19T18:01:10Z) - Unsupervised Learning of Invariance Transformations [105.54048699217668]
近似グラフ自己同型を見つけるためのアルゴリズムフレームワークを開発する。
重み付きグラフにおける近似自己同型を見つけるために、このフレームワークをどのように利用できるかについて議論する。
論文 参考訳(メタデータ) (2023-07-24T17:03:28Z) - Learning sparse features can lead to overfitting in neural networks [9.2104922520782]
機能学習は遅延トレーニングよりもパフォーマンスが良くないことを示す。
空間性は異方性データの学習に不可欠であることが知られているが、対象関数が一定あるいは滑らかな場合に有害である。
論文 参考訳(メタデータ) (2022-06-24T14:26:33Z) - Reasoning-Modulated Representations [85.08205744191078]
タスクが純粋に不透明でないような共通的な環境について研究する。
我々のアプローチは、新しいデータ効率表現学習の道を開く。
論文 参考訳(メタデータ) (2021-07-19T13:57:13Z) - Cherry-Picking Gradients: Learning Low-Rank Embeddings of Visual Data
via Differentiable Cross-Approximation [53.95297550117153]
本稿では,大規模な視覚データテンソルの処理を行うエンドツーエンドのトレーニング可能なフレームワークを提案する。
提案手法は大規模多次元グリッドデータや,大規模受容領域上のコンテキストを必要とするタスクに特に有用である。
論文 参考訳(メタデータ) (2021-05-29T08:39:57Z) - Leveraging Sparse Linear Layers for Debuggable Deep Networks [86.94586860037049]
学習した深い特徴表現に疎い線形モデルを適用することで、よりデバッグ可能なニューラルネットワークを実現する方法を示す。
その結果、スパースな説明は、スプリアス相関を特定し、誤分類を説明し、視覚および言語タスクにおけるモデルバイアスを診断するのに役立ちます。
論文 参考訳(メタデータ) (2021-05-11T08:15:25Z) - Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。
本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。
このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文 参考訳(メタデータ) (2020-10-10T14:04:44Z) - Predicting What You Already Know Helps: Provable Self-Supervised
Learning [60.27658820909876]
自己教師付き表現学習は、ラベル付きデータを必要としない補助的な予測タスク(プリテキストタスクと呼ばれる)を解決する。
本研究では,特定のエミュレーションに基づくプレテキストタスク間の統計的関係を利用して,優れた表現を学習することを保証する機構を示す。
複素基底真理関数クラスにおいても線形層は近似誤差が小さいことを証明した。
論文 参考訳(メタデータ) (2020-08-03T17:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。