論文の概要: What Can Grokking Teach Us About Learning Under Nonstationarity?
- arxiv url: http://arxiv.org/abs/2507.20057v1
- Date: Sat, 26 Jul 2025 20:51:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.780303
- Title: What Can Grokking Teach Us About Learning Under Nonstationarity?
- Title(参考訳): グローキングは非定常学習に何を教えることができるのか?
- Authors: Clare Lyle, Gharda Sokar, Razvan Pascanu, Andras Gyorgy,
- Abstract要約: 連続的な学習問題では、データストリームの変化に応じてニューラルネットワークの学習表現のコンポーネントを上書きする必要がある。
ニューラルネットワークは、しばしばプライマリーバイアスを示します。早期トレーニングデータによって、ネットワークが後続のタスクを一般化する能力を妨げます。
特徴学習力学の出現は, グルーキング現象を引き起こすことが知られている。
- 参考スコア(独自算出の注目度): 21.031486400628854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In continual learning problems, it is often necessary to overwrite components of a neural network's learned representation in response to changes in the data stream; however, neural networks often exhibit \primacy bias, whereby early training data hinders the network's ability to generalize on later tasks. While feature-learning dynamics of nonstationary learning problems are not well studied, the emergence of feature-learning dynamics is known to drive the phenomenon of grokking, wherein neural networks initially memorize their training data and only later exhibit perfect generalization. This work conjectures that the same feature-learning dynamics which facilitate generalization in grokking also underlie the ability to overwrite previous learned features as well, and methods which accelerate grokking by facilitating feature-learning dynamics are promising candidates for addressing primacy bias in non-stationary learning problems. We then propose a straightforward method to induce feature-learning dynamics as needed throughout training by increasing the effective learning rate, i.e. the ratio between parameter and update norms. We show that this approach both facilitates feature-learning and improves generalization in a variety of settings, including grokking, warm-starting neural network training, and reinforcement learning tasks.
- Abstract(参考訳): 連続的な学習問題では、データストリームの変化に応じてニューラルネットワークの学習表現のコンポーネントを上書きする必要があることが多いが、ニューラルネットワークはしばしば'プライマシーバイアス'を示す。
非定常学習問題の特徴学習ダイナミクスは十分に研究されていないが、特徴学習ダイナミクスの出現は、当初はニューラルネットワークがトレーニングデータを記憶し、後に完全に一般化した現象を引き起こすことが知られている。
本研究は、グラッキングにおける一般化を促進する同じ特徴学習ダイナミクスが、従来の学習特徴を上書きする能力ももたらしていると推測し、非定常学習問題における予備性バイアスに対処する上で、特徴学習ダイナミクスを促進することによってグラキングを加速する手法は有望な候補である。
そこで本研究では,効果的な学習率,すなわちパラメータと更新ノルムの比率を増大させることにより,トレーニングを通じて必要な機能学習ダイナミクスを誘導する簡単な手法を提案する。
このアプローチは、機能学習を促進し、グラッキング、ウォームスタートニューラルネットワークトレーニング、強化学習タスクなど、さまざまな設定での一般化を改善する。
関連論文リスト
- Lyapunov Learning at the Onset of Chaos [41.94295877935867]
我々はtextitLyapunov Learning と呼ばれるニューラルネットワークの新しいトレーニングアルゴリズムを提案する。
本手法は,非定常系における状態変化を含む実験において,有効かつ重要な改善を示すものである。
論文 参考訳(メタデータ) (2025-06-15T10:53:02Z) - A distributional simplicity bias in the learning dynamics of transformers [50.91742043564049]
自然言語データに基づいてトレーニングされたトランスフォーマーは、単純さのバイアスも示している。
具体的には、入力トークン間の多体相互作用を逐次学習し、低次相互作用の予測誤差において飽和点に達する。
このアプローチは、自然言語処理などにおいて、データ内の異なる順序の相互作用が学習にどのように影響するかを研究する可能性を開く。
論文 参考訳(メタデータ) (2024-10-25T15:39:34Z) - Early learning of the optimal constant solution in neural networks and humans [4.016584525313835]
対象関数の学習は、ネットワークが最適定数解(OCS)を学習する初期段階に先立って行われることを示す。
我々は、バイアス項がなくてもOCSの学習が出現し、入力データの一般的な相関によって等価に駆動されることを示す。
我々の研究は、OCSを教師付き誤り訂正学習における普遍的な学習原則として示唆している。
論文 参考訳(メタデータ) (2024-06-25T11:12:52Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Critical Learning Periods for Multisensory Integration in Deep Networks [112.40005682521638]
ニューラルネットワークが様々な情報源からの情報を統合する能力は、トレーニングの初期段階において、適切な相関した信号に晒されることに批判的になることを示す。
臨界周期は、訓練されたシステムとその学習された表現の最終性能を決定づける、複雑で不安定な初期過渡的ダイナミクスから生じることを示す。
論文 参考訳(メタデータ) (2022-10-06T23:50:38Z) - Synergistic information supports modality integration and flexible
learning in neural networks solving multiple tasks [107.8565143456161]
本稿では,様々な認知タスクを行う単純な人工ニューラルネットワークが採用する情報処理戦略について検討する。
結果は、ニューラルネットワークが複数の多様なタスクを学習するにつれて、シナジーが増加することを示している。
トレーニング中に無作為にニューロンを停止させると、ネットワークの冗長性が増加し、ロバスト性の増加に対応する。
論文 参考訳(メタデータ) (2022-10-06T15:36:27Z) - Improving Systematic Generalization Through Modularity and Augmentation [1.2183405753834562]
モジュラリティとデータ拡張という、よく知られた2つのモデリング原則が、ニューラルネットワークの体系的な一般化にどのように影響するかを検討する。
合成ベンチマークの制御された設定においても、体系的な一般化を実現することは依然として困難である。
論文 参考訳(メタデータ) (2022-02-22T09:04:35Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Being Friends Instead of Adversaries: Deep Networks Learn from Data
Simplified by Other Networks [23.886422706697882]
フレンドリートレーニング(Friendly Training)は、自動的に推定される摂動を追加することで入力データを変更するものである。
本稿では,ニューラルネットワークの有効性に触発されて,このアイデアを再考し,拡張する。
本稿では,入力データの変更に責任を負う補助的な多層ネットワークを提案する。
論文 参考訳(メタデータ) (2021-12-18T16:59:35Z) - Reasoning-Modulated Representations [85.08205744191078]
タスクが純粋に不透明でないような共通的な環境について研究する。
我々のアプローチは、新しいデータ効率表現学習の道を開く。
論文 参考訳(メタデータ) (2021-07-19T13:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。