Fugu-MT 論文翻訳(概要): Get rich quick: exact solutions reveal how unbalanced initializations promote rapid feature learning

論文の概要: Get rich quick: exact solutions reveal how unbalanced initializations promote rapid feature learning

arxiv url: http://arxiv.org/abs/2406.06158v1
Date: Mon, 10 Jun 2024 10:42:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-11 14:17:29.216298
Title: Get rich quick: exact solutions reveal how unbalanced initializations promote rapid feature learning
Title（参考訳）: 正確な解法は、不均衡な初期化が迅速な特徴学習をいかに促すか
Authors: Daniel Kunin, Allan Raventós, Clémentine Dominé, Feng Chen, David Klindt, Andrew Saxe, Surya Ganguli,
Abstract要約: 本研究では,非平衡層固有の初期化分散と学習速度が特徴学習の度合いを決定するかを検討する。分析の結果,保存量によって学習体制に影響を及ぼすことが示唆された。我々は、この不均衡なリッチレジームが、深い有限幅ネットワークにおける特徴学習を駆動し、CNNにおける初期層の解釈可能性を促進し、階層データの学習の複雑さを減らし、モジュラー算術の時間を短縮することを示す。
参考スコア（独自算出の注目度）: 26.07501953088188
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While the impressive performance of modern neural networks is often attributed to their capacity to efficiently extract task-relevant features from data, the mechanisms underlying this rich feature learning regime remain elusive, with much of our theoretical understanding stemming from the opposing lazy regime. In this work, we derive exact solutions to a minimal model that transitions between lazy and rich learning, precisely elucidating how unbalanced layer-specific initialization variances and learning rates determine the degree of feature learning. Our analysis reveals that they conspire to influence the learning regime through a set of conserved quantities that constrain and modify the geometry of learning trajectories in parameter and function space. We extend our analysis to more complex linear models with multiple neurons, outputs, and layers and to shallow nonlinear networks with piecewise linear activation functions. In linear networks, rapid feature learning only occurs with balanced initializations, where all layers learn at similar speeds. While in nonlinear networks, unbalanced initializations that promote faster learning in earlier layers can accelerate rich learning. Through a series of experiments, we provide evidence that this unbalanced rich regime drives feature learning in deep finite-width networks, promotes interpretability of early layers in CNNs, reduces the sample complexity of learning hierarchical data, and decreases the time to grokking in modular arithmetic. Our theory motivates further exploration of unbalanced initializations to enhance efficient feature learning.
Abstract（参考訳）: 現代のニューラルネットワークの印象的な性能は、データからタスク関連の特徴を効率的に抽出する能力に起因することが多いが、このリッチな特徴学習体制の基礎となるメカニズムはいまだ解明されていない。本研究では,遅延学習とリッチラーニングの間で遷移する最小限のモデルに対して,階層固有の初期化のばらつきと学習速度がいかに特徴学習の度合いを決定するかを正確に解明する。分析の結果,パラメータや関数空間における学習軌跡の幾何を制約・修正する保存量の集合を通じて,学習体制に影響を及ぼすことが示唆された。我々は解析を、複数のニューロン、出力層、層を持つより複雑な線形モデルに拡張し、断片的な線形活性化関数を持つ浅い非線形ネットワークに拡張する。線形ネットワークでは、高速な特徴学習は全ての層が同じ速度で学習するバランスの取れた初期化でのみ発生する。非線形ネットワークでは、初期の層での学習を高速化するアンバランスな初期化は、リッチラーニングを加速させる。一連の実験を通じて、この不均衡なリッチレジームが、深い有限幅ネットワークにおける特徴学習を駆動し、CNNの初期層の解釈可能性を促進し、階層データの学習の複雑さを減らし、モジュラー算術の時間を短縮することを示す。我々の理論は、効率的な特徴学習を強化するために、不均衡な初期化のさらなる探索を動機付けている。

関連論文リスト

The Importance of Being Lazy: Scaling Limits of Continual Learning [60.97756735877614]
モデル幅の増大は,特徴学習の量を減らし,遅延度を高めた場合にのみ有益であることを示す。特徴学習,タスク非定常性,および忘れることの複雑な関係について検討し,高い特徴学習が極めて類似したタスクにのみ有用であることを示す。
論文参考訳（メタデータ） (2025-06-20T10:12:38Z)
Make Haste Slowly: A Theory of Emergent Structured Mixed Selectivity in Feature Learning ReLU Networks [16.83151955540625]
有限ReLUネットワークにおける特徴学習理論への一歩を踏み出した。ノード再利用と学習速度のバイアスにより,構造化された混合選択潜在表現が出現することを示す。
論文参考訳（メタデータ） (2025-03-08T11:47:33Z)
From Lazy to Rich: Exact Learning Dynamics in Deep Linear Networks [47.13391046553908]
人工ネットワークでは、これらのモデルの有効性はタスク固有の表現を構築する能力に依存している。以前の研究では、異なる初期化によって、表現が静的な遅延状態にあるネットワークや、表現が動的に進化するリッチ/フィーチャーな学習体制のいずれかにネットワークを配置できることが強調されていた。これらの解は、豊かな状態から遅延状態までのスペクトルにわたる表現とニューラルカーネルの進化を捉えている。
論文参考訳（メタデータ） (2024-09-22T23:19:04Z)
A Unified Framework for Neural Computation and Learning Over Time [56.44910327178975]
Hamiltonian Learningはニューラルネットワークを"時間とともに"学習するための新しい統合フレームワーク i)外部ソフトウェアソルバを必要とせずに統合できる、(ii)フィードフォワードおよびリカレントネットワークにおける勾配に基づく学習の概念を一般化する、(iii)新しい視点で開放する、という微分方程式に基づいている。
論文参考訳（メタデータ） (2024-09-18T14:57:13Z)
Dynamics of Supervised and Reinforcement Learning in the Non-Linear Perceptron [3.069335774032178]
学習を記述するフロー方程式を導出するために,データセット処理アプローチを用いる。学習ルール(教師付きまたは強化学習,SL/RL)と入力データ分布が知覚者の学習曲線に及ぼす影響を特徴付ける。このアプローチは、より複雑な回路アーキテクチャの学習力学を解析する方法を示している。
論文参考訳（メタデータ） (2024-09-05T17:58:28Z)
How connectivity structure shapes rich and lazy learning in neural circuits [14.236853424595333]
本稿では,初期重みの構造,特にその有効ランクがネットワーク学習体制に与える影響について検討する。本研究は,学習体制形成における初期重み構造の役割を明らかにするものである。
論文参考訳（メタデータ） (2023-10-12T17:08:45Z)
Critical Learning Periods for Multisensory Integration in Deep Networks [112.40005682521638]
ニューラルネットワークが様々な情報源からの情報を統合する能力は、トレーニングの初期段階において、適切な相関した信号に晒されることに批判的になることを示す。臨界周期は、訓練されたシステムとその学習された表現の最終性能を決定づける、複雑で不安定な初期過渡的ダイナミクスから生じることを示す。
論文参考訳（メタデータ） (2022-10-06T23:50:38Z)
The Influence of Learning Rule on Representation Dynamics in Wide Neural Networks [18.27510863075184]
我々は、フィードバックアライメント(FA)、ダイレクトフィードバックアライメント(DFA)、エラー変調ヘビアン学習(Hebb)で訓練された無限幅の深い勾配ネットワークを解析する。これらの学習規則のそれぞれに対して、無限幅での出力関数の進化は、時間変化の有効なニューラルネットワークカーネル(eNTK)によって制御されることを示す。遅延訓練限界では、このeNTKは静的であり、進化しないが、リッチ平均場状態では、このカーネルの進化は動的平均場理論(DMFT)と自己整合的に決定することができる。
論文参考訳（メタデータ） (2022-10-05T11:33:40Z)
Learning Fast and Slow for Online Time Series Forecasting [76.50127663309604]
Fast and Slow Learning Networks (FSNet)は、オンライン時系列予測のための総合的なフレームワークである。 FSNetは、最近の変更への迅速な適応と、同様の古い知識の取得のバランスを取る。私たちのコードは公開されます。
論文参考訳（メタデータ） (2022-02-23T18:23:07Z)
Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文参考訳（メタデータ） (2022-02-01T17:11:13Z)
The Surprising Simplicity of the Early-Time Learning Dynamics of Neural Networks [43.860358308049044]
研究において、これらの共通認識は、学習の初期段階において完全に誤りであることを示す。この驚くべき単純さは、畳み込みアーキテクチャを持つより多くのレイヤを持つネットワークで持続することができる、と私たちは主張する。
論文参考訳（メタデータ） (2020-06-25T17:42:49Z)
The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文参考訳（メタデータ） (2020-03-04T17:52:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。