論文の概要: Towards Understanding Grokking: An Effective Theory of Representation
Learning
- arxiv url: http://arxiv.org/abs/2205.10343v1
- Date: Fri, 20 May 2022 17:56:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-23 15:00:49.914692
- Title: Towards Understanding Grokking: An Effective Theory of Representation
Learning
- Title(参考訳): グロッキングの理解に向けて--表現学習の効果的な理論
- Authors: Ziming Liu, Ouail Kitouni, Niklas Nolte, Eric J. Michaud, Max Tegmark,
Mike Williams
- Abstract要約: グルーキングは トレーニングセットを オーバーフィットした後 モデルが 長い間 一般化する現象だ。
我々は,4つの学習段階が存在することを経験的に観察した。
ゴールディロックス相はダーウィン進化における「飢餓からの知性」を想起させるものであり、資源制限がより効率的な解の発見を促進する。
- 参考スコア(独自算出の注目度): 3.911180906175196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We aim to understand grokking, a phenomenon where models generalize long
after overfitting their training set. We present both a microscopic analysis
anchored by an effective theory and a macroscopic analysis of phase diagrams
describing learning performance across hyperparameters. We find that
generalization originates from structured representations whose training
dynamics and dependence on training set size can be predicted by our effective
theory in a toy setting. We observe empirically the presence of four learning
phases: comprehension, grokking, memorization, and confusion. We find
representation learning to occur only in a "Goldilocks zone" (including
comprehension and grokking) between memorization and confusion. Compared to the
comprehension phase, the grokking phase stays closer to the memorization phase,
leading to delayed generalization. The Goldilocks phase is reminiscent of
"intelligence from starvation" in Darwinian evolution, where resource
limitations drive discovery of more efficient solutions. This study not only
provides intuitive explanations of the origin of grokking, but also highlights
the usefulness of physics-inspired tools, e.g., effective theories and phase
diagrams, for understanding deep learning.
- Abstract(参考訳): トレーニングセットに過度に適合した後、モデルが長期にわたって一般化する現象である。
実効理論に固定された微視的解析とハイパーパラメータ間の学習性能を記述する位相図の巨視的解析の両方を示す。
一般化は、トレーニングのダイナミクスとトレーニングセットサイズへの依存が、おもちゃの設定における有効理論によって予測できる構造化表現に由来する。
我々は4つの学習段階(理解、グロッキング、記憶、混乱)の存在を実証的に観察する。
表現学習は記憶と混乱の間の「ゴルディロックゾーン」(理解とグロッキングを含む)でのみ起こることが判明した。
理解相と比較すると、グラッキング相は記憶相に近づき、一般化が遅れる。
ゴールディロックス相はダーウィン進化における「飢餓からの知性」を想起させるものであり、資源制限がより効率的な解の発見を促進する。
この研究は、グルーキングの起源の直感的な説明を提供するだけでなく、物理にインスパイアされたツール、例えば効果的な理論や位相図が深層学習の理解に有用であることを強調する。
関連論文リスト
- The Cognitive Revolution in Interpretability: From Explaining Behavior to Interpreting Representations and Algorithms [3.3653074379567096]
機械的解釈可能性(MI)は、大きな言語モデルのような基礎モデルによって学習された特徴と暗黙のアルゴリズムを研究する別の研究領域として登場した。
我々は、20世紀の心理学における「認知革命」を反映した深層学習解釈の移行を促進するために、現在の手法が熟していると論じる。
計算神経科学におけるキーパラレルを反映した分類法を提案し,MI研究の2つの幅広いカテゴリについて述べる。
論文 参考訳(メタデータ) (2024-08-11T20:50:16Z) - GenEFT: Understanding Statics and Dynamics of Model Generalization via
Effective Theory [16.876961991785507]
ニューラルネットワークの一般化の静的性と動的性に光を遮る効果的な理論フレームワークを提案する。
我々はデコーダが弱すぎても強すぎないGoldilocksゾーンの一般化を見出した。
次に、潜在空間表現を相互作用粒子(応答)としてモデル化する表現学習のダイナミクスに関する効果的な理論を導入する。
論文 参考訳(メタデータ) (2024-02-08T18:51:55Z) - Investigating Forgetting in Pre-Trained Representations Through
Continual Learning [51.30807066570425]
事前学習した言語モデルの汎用性に及ぼす表現忘れの影響について検討する。
様々な事前学習されたLMで一般化が破壊され,構文的・意味的知識は連続学習によって忘れられることがわかった。
論文 参考訳(メタデータ) (2023-05-10T08:27:59Z) - How Do Transformers Learn Topic Structure: Towards a Mechanistic
Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する
数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文 参考訳(メタデータ) (2023-03-07T21:42:17Z) - Beyond spectral gap (extended): The role of the topology in
decentralized learning [58.48291921602417]
機械学習モデルのデータ並列最適化では、労働者はモデルの推定値を改善するために協力する。
現在の理論では、コラボレーションはトレーニング単独よりも学習率が大きいことを説明していない。
本稿では,疎結合分散最適化の正確な図面を描くことを目的とする。
論文 参考訳(メタデータ) (2023-01-05T16:53:38Z) - Understanding Self-Predictive Learning for Reinforcement Learning [61.62067048348786]
強化学習のための自己予測学習の学習ダイナミクスについて検討する。
本稿では,2つの表現を同時に学習する新しい自己予測アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-06T20:43:37Z) - Envisioning Future Deep Learning Theories: Some Basic Concepts and Characteristics [30.365274034429508]
将来的な深層学習理論は,3つの特徴を継承すべきである,と我々は主張する。 階層構造型ネットワークアーキテクチャ, 勾配法を用いてテキストに最適化されたパラメータ, テキスト圧縮的に進化するデータからの情報。
我々はこれらの特徴をTextitneurashedと呼ばれるグラフィカルモデルに統合し、ディープラーニングにおける一般的な経験的パターンを効果的に説明する。
論文 参考訳(メタデータ) (2021-12-17T19:51:26Z) - Deep Learning Through the Lens of Example Difficulty [21.522182447513632]
本稿では,与えられた入力の予測を行う際の計算困難度,すなわち(有効)予測深さを測る尺度を提案する。
我々の研究は、与えられた入力の予測深さとモデルの不確実性、信頼性、正確性、そしてそのデータポイントの学習速度との間の驚くほど単純な関係を明らかにする。
論文 参考訳(メタデータ) (2021-06-17T16:48:12Z) - Fact-driven Logical Reasoning for Machine Reading Comprehension [82.58857437343974]
私たちは、常識と一時的な知識のヒントの両方を階層的にカバーする動機があります。
具体的には,文の背骨成分を抽出し,知識単位の一般的な定式化を提案する。
次に、事実単位の上にスーパーグラフを構築し、文レベル(事実群間の関係)と実体レベルの相互作用の利点を享受する。
論文 参考訳(メタデータ) (2021-05-21T13:11:13Z) - The Relativity of Induction [0.0]
オッカムのカミソリとパーシモニーの原理は、地上学習には不十分であることを示す。
我々は、学習の本質とダイナミクスに関するより明確な洞察をもたらす一連の相対論的原則を導出し、実証する。
論文 参考訳(メタデータ) (2020-09-22T15:17:26Z) - The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。
現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。
我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文 参考訳(メタデータ) (2020-03-04T17:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。