論文の概要: Lazy vs hasty: linearization in deep networks impacts learning schedule
based on example difficulty
- arxiv url: http://arxiv.org/abs/2209.09658v1
- Date: Mon, 19 Sep 2022 16:10:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 17:51:56.258941
- Title: Lazy vs hasty: linearization in deep networks impacts learning schedule
based on example difficulty
- Title(参考訳): lazy vs hasty: ディープネットワークの線形化がサンプル難易度に基づく学習スケジュールに与える影響
- Authors: Thomas George, Guillaume Lajoie, Aristide Baratin
- Abstract要約: より簡単な例は、特徴学習モードでより重み付けされ、結果として、より難しい例に比べて、より高速なトレーニングがもたらされることを示す。
以上の結果から,深層ネットワークが資源の優先順位を,サンプルの難易度でどのように優先順位づけするか,という新たな理解が得られた。
- 参考スコア(独自算出の注目度): 6.929386608203998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Among attempts at giving a theoretical account of the success of deep neural
networks, a recent line of work has identified a so-called `lazy' regime in
which the network can be well approximated by its linearization around
initialization. Here we investigate the comparative effect of the lazy (linear)
and feature learning (non-linear) regimes on subgroups of examples based on
their difficulty. Specifically, we show that easier examples are given more
weight in feature learning mode, resulting in faster training compared to more
difficult ones. In other words, the non-linear dynamics tends to sequentialize
the learning of examples of increasing difficulty. We illustrate this
phenomenon across different ways to quantify example difficulty, including
c-score, label noise, and in the presence of spurious correlations. Our results
reveal a new understanding of how deep networks prioritize resources across
example difficulty.
- Abstract(参考訳): ディープニューラルネットワークの成功を理論的に説明しようとする試みの中で、最近の一連の研究は、ネットワークが初期化に関する線形化によってよく近似できるいわゆる'lazy'レジームを特定した。
本稿では,遅延(線形)と特徴学習(非線形)が,その難易度に基づく例のサブグループに与える影響について検討する。
具体的には、より簡単な例が機能学習モードに重み付けされ、より難しい例に比べてトレーニングが高速になることを示す。
言い換えると、非線形ダイナミクスは困難の増加例の学習を逐次化する傾向がある。
この現象を,c-score,ラベルノイズ,スプリアス相関の存在など,様々な方法で定量化する。
以上の結果から,深層ネットワークが実例でいかにリソースを優先するか,新たな理解が得られた。
関連論文リスト
- Coding schemes in neural networks learning classification tasks [52.22978725954347]
完全接続型広義ニューラルネットワーク学習タスクについて検討する。
ネットワークが強力なデータ依存機能を取得することを示す。
驚くべきことに、内部表現の性質は神経の非線形性に大きく依存する。
論文 参考訳(メタデータ) (2024-06-24T14:50:05Z) - The mechanistic basis of data dependence and abrupt learning in an
in-context classification task [0.3626013617212666]
本研究では,言語固有の特定の分布特性が,2種類の学習のトレードオフや同時出現を制御していることを示す。
インコンテキスト学習は、誘導ヘッドの突然の出現によって駆動され、その後、インウェイト学習と競合する。
注意に基づくネットワークの急激な遷移は、ICLを実現するのに必要な多層演算の特定の連鎖によって生じると提案する。
論文 参考訳(メタデータ) (2023-12-03T20:53:41Z) - Provable Advantage of Curriculum Learning on Parity Targets with Mixed
Inputs [21.528321119061694]
共通サンプル分布における標準(有界)学習率のトレーニングステップ数の分離結果を示す。
また,理論結果の具体的構造を超えた定性的分離を支持する実験結果も提供する。
論文 参考訳(メタデータ) (2023-06-29T13:14:42Z) - Characterizing Datapoints via Second-Split Forgetting [93.99363547536392]
我々は、オリジナルのトレーニング例が忘れられた後(もしあれば)のエポックを追跡する補足的メトリックである$$-second-$split$$forgetting$$$time$ (SSFT)を提案する。
例えば$mislabeled$の例はすぐに忘れられ、$rare$の例は比較的ゆっくりと忘れられています。
SSFTは、(i)間違ったラベル付きサンプルを識別し、その除去により一般化が向上し、(ii)障害モードに関する洞察を提供する。
論文 参考訳(メタデータ) (2022-10-26T21:03:46Z) - BatchFormer: Learning to Explore Sample Relationships for Robust
Representation Learning [93.38239238988719]
本稿では,各ミニバッチからサンプル関係を学習可能なディープニューラルネットワークを提案する。
BatchFormerは各ミニバッチのバッチ次元に適用され、トレーニング中のサンプル関係を暗黙的に探索する。
我々は10以上のデータセットに対して広範な実験を行い、提案手法は異なるデータ不足アプリケーションにおいて大幅な改善を実現する。
論文 参考訳(メタデータ) (2022-03-03T05:31:33Z) - Gradient-trained Weights in Wide Neural Networks Align Layerwise to
Error-scaled Input Correlations [11.176824373696324]
我々は、勾配降下によって訓練された非線形活性化を伴う無限幅ニューラルネットワークの層方向の重みダイナミクスを導出する。
我々は、バックプロパゲーションと同じアライメントを理論的に達成するバックプロパゲーションフリー学習ルール、Align-zeroとAlign-adaを定式化した。
論文 参考訳(メタデータ) (2021-06-15T21:56:38Z) - What can linearized neural networks actually say about generalization? [67.83999394554621]
ある無限大のニューラルネットワークにおいて、ニューラル・タンジェント・カーネル(NTK)理論は一般化を完全に特徴づける。
線形近似は、ニューラルネットワークの特定のタスクの学習複雑性を確実にランク付けできることを示す。
我々の研究は、将来の理論的研究を刺激する新しい深層学習現象の具体例を提供する。
論文 参考訳(メタデータ) (2021-06-12T13:05:11Z) - An analytic theory of shallow networks dynamics for hinge loss
classification [14.323962459195771]
我々は、単純なタイプのニューラルネットワーク(分類タスクを実行するために訓練された単一の隠れ層)のトレーニングダイナミクスについて研究する。
我々はこの理論を線形分離可能なデータセットと線形ヒンジ損失のプロトタイプケースに特化する。
これにより、トレーニングダイナミクスの減速、リッチラーニングと遅延ラーニングのクロスオーバー、オーバーフィッティングといった、現代のネットワークに現れるいくつかの現象に対処することが可能になります。
論文 参考訳(メタデータ) (2020-06-19T16:25:29Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z) - The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。
現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。
我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文 参考訳(メタデータ) (2020-03-04T17:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。