論文の概要: Dynamics of Local Elasticity During Training of Neural Nets
- arxiv url: http://arxiv.org/abs/2111.01166v3
- Date: Thu, 24 Aug 2023 18:42:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 18:34:31.352196
- Title: Dynamics of Local Elasticity During Training of Neural Nets
- Title(参考訳): ニューラルネットワークの訓練における局所弾性のダイナミクス
- Authors: Soham Dan, Anirbit Mukherjee, Avirup Das and Phanideep Gampa
- Abstract要約: 局所弾性」は、サンプルデータポイントが他のデータでの予測に与える影響の伝播を定量化しようとする。
今回提案した$S_rm rel$は,従来の定義とは対照的に,重み更新の特性をはるかに強く検出する。
- 参考スコア(独自算出の注目度): 7.9140338281956835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the recent past, a property of neural training trajectories in
weight-space had been isolated, that of "local elasticity" (denoted as $S_{\rm
rel}$). Local elasticity attempts to quantify the propagation of the influence
of a sampled data point on the prediction at another data. In this work, we
embark on a comprehensive study of the existing notion of $S_{\rm rel}$ and
also propose a new definition that addresses the limitations that we point out
for the original definition in the classification setting. On various
state-of-the-art neural network training on SVHN, CIFAR-10 and CIFAR-100 we
demonstrate how our new proposal of $S_{\rm rel}$, as opposed to the original
definition, much more sharply detects the property of the weight updates
preferring to make prediction changes within the same class as the sampled
data.
In neural regression experiments we demonstrate that the original $S_{\rm
rel}$ reveals a $2-$phase behavior -- that the training proceeds via an initial
elastic phase when $S_{\rm rel}$ changes rapidly and an eventual inelastic
phase when $S_{\rm rel}$ remains large. We show that some of these properties
can be analytically reproduced in various instances of doing regression via
gradient flows on model predictor classes.
- Abstract(参考訳): 近年では、重み空間における神経訓練路の特性、すなわち「局所弾性」($s_{\rm rel}$)が分離されている。
局所弾性は、サンプルデータポイントが他のデータでの予測に与える影響の伝播を定量化しようとする。
本研究では,既存の$S_{\rm rel}$という概念を包括的に研究し,分類設定における本来の定義について指摘する制限に対処する新たな定義を提案する。
SVHN, CIFAR-10, CIFAR-100のさまざまな最先端ニューラルネットワークトレーニングにおいて, 従来の定義とは対照的に, 新たな提案である$S_{\rm rel}$が, サンプルデータと同じクラス内での予測変更よりも優先される重み更新の特性をはるかに強く検出することを示した。
神経回帰実験では、最初の$s_{\rm rel}$ は2ドルのフェーズの振る舞いを示し、$s_{\rm rel}$ が急速に変化するときに初期弾性フェーズを経由し、$s_{\rm rel}$ が大きくなると最終的に非弾性フェーズとなることを実証する。
これらの特性のいくつかは、モデル予測クラス上で勾配フローを介して回帰を行う様々な例で解析的に再現できることを示す。
関連論文リスト
- Gradient Descent Finds Over-Parameterized Neural Networks with Sharp Generalization for Nonparametric Regression: A Distribution-Free Analysis [19.988762532185884]
ニューラルネットワークが早期停止でGDによってトレーニングされている場合、トレーニングされたネットワークは、非パラメトリック回帰リスクが$cO(eps_n2)$のシャープレートを示す。
本研究の結果は,トレーニングデータに分布的な仮定を必要としないことが示唆された。
論文 参考訳(メタデータ) (2024-11-05T08:43:54Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Provable Identifiability of Two-Layer ReLU Neural Networks via LASSO
Regularization [15.517787031620864]
LASSOの領域は、ファッショナブルで強力な非線形回帰モデルである2層ReLUニューラルネットワークに拡張される。
LASSO推定器はニューラルネットワークを安定的に再構築し,サンプル数が対数的にスケールする場合に$mathcalSstar$を識別可能であることを示す。
我々の理論は、2層ReLUニューラルネットワークのための拡張Restricted Isometry Property (RIP)ベースの分析フレームワークにある。
論文 参考訳(メタデータ) (2023-05-07T13:05:09Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Characterizing Datapoints via Second-Split Forgetting [93.99363547536392]
我々は、オリジナルのトレーニング例が忘れられた後(もしあれば)のエポックを追跡する補足的メトリックである$$-second-$split$$forgetting$$$time$ (SSFT)を提案する。
例えば$mislabeled$の例はすぐに忘れられ、$rare$の例は比較的ゆっくりと忘れられています。
SSFTは、(i)間違ったラベル付きサンプルを識別し、その除去により一般化が向上し、(ii)障害モードに関する洞察を提供する。
論文 参考訳(メタデータ) (2022-10-26T21:03:46Z) - Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。
単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文 参考訳(メタデータ) (2022-02-01T18:15:24Z) - Neural Capacitance: A New Perspective of Neural Network Selection via
Edge Dynamics [85.31710759801705]
現在の実践は、性能予測のためのモデルトレーニングにおいて高価な計算コストを必要とする。
本稿では,学習中のシナプス接続(エッジ)上の制御ダイナミクスを解析し,ニューラルネットワーク選択のための新しいフレームワークを提案する。
我々のフレームワークは、ニューラルネットワークトレーニング中のバックプロパゲーションがシナプス接続の動的進化と等価であるという事実に基づいて構築されている。
論文 参考訳(メタデータ) (2022-01-11T20:53:15Z) - Imitating Deep Learning Dynamics via Locally Elastic Stochastic
Differential Equations [20.066631203802302]
本研究では, 深層学習における特徴の進化を, それぞれが学習サンプルに対応する微分方程式(SDE)を用いて研究する。
我々の結果は、ニューラルネットワークのトレーニング力学における局所弾性の決定的な役割に光を当てた。
論文 参考訳(メタデータ) (2021-10-11T17:17:20Z) - Understanding the Under-Coverage Bias in Uncertainty Estimation [58.03725169462616]
量子レグレッションは、現実の望ましいカバレッジレベルよりもアンファンダーカバー(enmphunder-cover)する傾向がある。
我々は、量子レグレッションが固有のアンダーカバーバイアスに悩まされていることを証明している。
我々の理論は、この過大被覆バイアスが特定の高次元パラメータ推定誤差に起因することを明らかにしている。
論文 参考訳(メタデータ) (2021-06-10T06:11:55Z) - The Impact of the Mini-batch Size on the Variance of Gradients in
Stochastic Gradient Descent [28.148743710421932]
ミニバッチ勾配勾配(SGD)アルゴリズムは機械学習モデルのトレーニングに広く用いられている。
線形回帰および2層線形ネットワーク下でのSGDダイナミクスについて検討し,より深い線形ネットワークへの拡張を容易にする。
論文 参考訳(メタデータ) (2020-04-27T20:06:11Z) - Online Tensor-Based Learning for Multi-Way Data [1.0953917735844645]
オンラインの$CANDECOMP/PARAFAC$分解のために、新しい効率的なテンソルベースの特徴抽出法NeSGDが提案されている。
その結果,提案手法は分類誤り率を大幅に改善し,時間とともに正のデータ分布の変化を同化することができ,全てのケーススタディにおいて高い予測精度を維持した。
論文 参考訳(メタデータ) (2020-03-10T02:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。