論文の概要: Mixed Dynamics In Linear Networks: Unifying the Lazy and Active Regimes
- arxiv url: http://arxiv.org/abs/2405.17580v2
- Date: Tue, 29 Oct 2024 20:52:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:25:37.230453
- Title: Mixed Dynamics In Linear Networks: Unifying the Lazy and Active Regimes
- Title(参考訳): リニアネットワークにおける混合ダイナミクス:遅延とアクティブなレジームの統合
- Authors: Zhenfeng Tu, Santiago Aranguri, Arthur Jacot,
- Abstract要約: 遅延状態と平衡状態の両方の特別な場合を含む学習行列の進化の公式を提供する。
混合状態では、ネットワークの一部が遅延し、他方がバランスを取る。
- 参考スコア(独自算出の注目度): 9.439400207242983
- License:
- Abstract: The training dynamics of linear networks are well studied in two distinct setups: the lazy regime and balanced/active regime, depending on the initialization and width of the network. We provide a surprisingly simple unifying formula for the evolution of the learned matrix that contains as special cases both lazy and balanced regimes but also a mixed regime in between the two. In the mixed regime, a part of the network is lazy while the other is balanced. More precisely the network is lazy along singular values that are below a certain threshold and balanced along those that are above the same threshold. At initialization, all singular values are lazy, allowing for the network to align itself with the task, so that later in time, when some of the singular value cross the threshold and become active they will converge rapidly (convergence in the balanced regime is notoriously difficult in the absence of alignment). The mixed regime is the `best of both worlds': it converges from any random initialization (in contrast to balanced dynamics which require special initialization), and has a low rank bias (absent in the lazy dynamics). This allows us to prove an almost complete phase diagram of training behavior as a function of the variance at initialization and the width, for a MSE training task.
- Abstract(参考訳): 線形ネットワークのトレーニング力学は、ネットワークの初期化と幅に応じて遅延状態と平衡/アクティブ状態の2つの異なる設定でよく研究されている。
我々は、学習行列の進化に関する驚くほど単純な統一式を提供し、遅延とバランスの取れた状態の両方を特別なケースとして含むとともに、両者の間に混合された状態を含む。
混合状態では、ネットワークの一部が遅延し、他方がバランスを取る。
より正確には、ネットワークは特定のしきい値より低い特異値に沿って遅延し、同じしきい値より低い値に沿ってバランスをとる。
初期化時には、すべての特異値は遅延し、ネットワークがタスクと整列できるので、後に特異値の一部がしきい値を越えてアクティブになると、急速に収束する(バランスの取れた状態の収束は、アライメントの欠如において非常に困難である)。
混合状態は「両方の世界の最良」であり、任意のランダムな初期化(特別な初期化を必要とするバランスの取れた力学とは対照的に)から収束し、低ランクバイアス(遅延力学)を持つ。
これにより、MSEトレーニングタスクにおいて、初期化時の分散と幅の関数として、トレーニング行動のほぼ完全な位相図を証明できる。
関連論文リスト
- Items or Relations -- what do Artificial Neural Networks learn? [0.9208007322096533]
低次元ネットワークと簡単なタスク,すなわちトレーニング項目の集合を同一に再現する必要があると考える。
解析的に解の族を構築し,数値解を得るために標準学習アルゴリズムを用いる。
論文 参考訳(メタデータ) (2024-04-15T08:11:45Z) - Parallel Learning by Multitasking Neural Networks [1.6799377888527685]
現代の人工知能の課題は、複数のパターンを同時に学習することだ。
マルチタスク・ヘビアン・ネットワークは,このような複雑なタスクを自然に行うことができることを示す。
論文 参考訳(メタデータ) (2023-08-08T07:43:31Z) - IF2Net: Innately Forgetting-Free Networks for Continual Learning [49.57495829364827]
継続的な学習は、以前に学んだ知識に干渉することなく、新しい概念を漸進的に吸収することができる。
ニューラルネットワークの特性に触発され,本研究は,IF2Net(Innately Forgetting-free Network)の設計方法について検討した。
IF2Netは、1つのネットワークがテスト時にタスクのIDを告げることなく、本質的に無制限のマッピングルールを学習することを可能にする。
論文 参考訳(メタデータ) (2023-06-18T05:26:49Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Dynamical Isometry for Residual Networks [8.21292084298669]
RISOTTO は ReLU 活性化機能を持つ残差ネットワークに対して, 有限深さ・幅でも完全な動的等尺性を実現することを示す。
実験では,FixupやSkipInitなど,バッチ正規化を廃止する手法よりも優れた手法が提案されている。
論文 参考訳(メタデータ) (2022-10-05T17:33:23Z) - On the Explicit Role of Initialization on the Convergence and Implicit
Bias of Overparametrized Linear Networks [1.0323063834827415]
勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。
正方形損失はその最適値に指数関数的に収束することを示す。
我々は、トレーニングされたネットワークとmin-norm解の間の距離に基づいて、新しい非漸近上界を導出する。
論文 参考訳(メタデータ) (2021-05-13T15:13:51Z) - Improve Generalization and Robustness of Neural Networks via Weight
Scale Shifting Invariant Regularizations [52.493315075385325]
重み劣化を含む正則化器の族は、均質な活性化関数を持つネットワークに対する本質的な重みのノルムをペナルティ化するのに有効でないことを示す。
そこで我々は,ニューラルネットワークの本質的な規範を効果的に制約する改良型正規化器を提案する。
論文 参考訳(メタデータ) (2020-08-07T02:55:28Z) - Continuous-in-Depth Neural Networks [107.47887213490134]
まず最初に、このリッチな意味では、ResNetsは意味のある動的でないことを示します。
次に、ニューラルネットワークモデルが連続力学系を表現することを実証する。
ResNetアーキテクチャの詳細な一般化としてContinuousNetを紹介します。
論文 参考訳(メタデータ) (2020-08-05T22:54:09Z) - Phase diagram for two-layer ReLU neural networks at infinite-width limit [6.380166265263755]
我々は、2層ReLUニューラルネットワークの位相図を無限幅極限で描画する。
位相図の3つのレギュレーション、すなわち線形レギュレーション、臨界レギュレーション、凝縮レギュレーションを同定する。
線形状態においては、NNトレーニングダイナミクスは指数的損失減衰を持つランダム特徴モデルとほぼ同様の線形である。
凝縮状態において、能動ニューロンがいくつかの異なる向きで凝縮されていることを示す実験を通して、我々は実験を行う。
論文 参考訳(メタデータ) (2020-07-15T06:04:35Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z) - Side-Tuning: A Baseline for Network Adaptation via Additive Side
Networks [95.51368472949308]
適応は、トレーニングデータが少ない場合や、ネットワークのプリエンプションをエンコードしたい場合などに有効である。
本稿では,サイドチューニングという簡単な方法を提案する。
論文 参考訳(メタデータ) (2019-12-31T18:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。