論文の概要: Investigating the locality of neural network training dynamics
- arxiv url: http://arxiv.org/abs/2111.01166v1
- Date: Mon, 1 Nov 2021 18:00:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 01:55:29.376464
- Title: Investigating the locality of neural network training dynamics
- Title(参考訳): ニューラルネットワークトレーニングダイナミクスの局所性の検討
- Authors: Soham Dan, Phanideep Gampa and Anirbit Mukherjee
- Abstract要約: 局所弾性」とは、サンプルデータポイントが他のデータポイントでの予測に与える影響の伝搬を定量化する$S_rm rel$の特性である。
我々は、新しい$S_rm rel$が、サンプルデータと同じクラス内で予測を変更することを好む重み付け更新の特性をどうやって検出するかを示す。
また、元の$S_rm rel$関数のクローズドフォーム式を得られる勾配流による学習例を示す。
- 参考スコア(独自算出の注目度): 4.87717454493713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A fundamental quest in the theory of deep-learning is to understand the
properties of the trajectories in the weight space that a learning algorithm
takes. One such property that had very recently been isolated is that of "local
elasticity" ($S_{\rm rel}$), which quantifies the propagation of influence of a
sampled data point on the prediction at another data point. In this work, we
perform a comprehensive study of local elasticity by providing new theoretical
insights and more careful empirical evidence of this property in a variety of
settings. Firstly, specific to the classification setting, we suggest a new
definition of the original idea of $S_{\rm rel}$. Via experiments on
state-of-the-art neural networks training on SVHN, CIFAR-10 and CIFAR-100 we
demonstrate how our new $S_{\rm rel}$ detects the property of the weight
updates preferring to make changes in predictions within the same class of the
sampled data. Next, we demonstrate via examples of neural nets doing regression
that the original $S_{\rm rel}$ reveals a $2-$phase behaviour: that their
training proceeds via an initial elastic phase when $S_{\rm rel}$ changes
rapidly and an eventual inelastic phase when $S_{\rm rel}$ remains large.
Lastly, we give multiple examples of learning via gradient flows for which one
can get a closed-form expression of the original $S_{\rm rel}$ function. By
studying the plots of these derived formulas we given a theoretical
demonstration of some of the experimentally detected properties of $S_{\rm
rel}$ in the regression setting.
- Abstract(参考訳): ディープラーニングの理論における基本的な探求は、学習アルゴリズムが取る重み空間における軌道の性質を理解することである。
非常に最近分離されたそのような特性の1つは、「局所弾性」(S_{\rm rel}$)であり、サンプルデータポイントが別のデータポイントでの予測に与える影響の伝播を定量化するものである。
本研究では,新しい理論的知見と,この性質のより慎重な実証的証拠を様々な設定で提供することにより,局所弾性の包括的研究を行う。
まず、分類設定に特有なものとして、$s_{\rm rel}$という元の概念の新しい定義を提案する。
SVHN、CIFAR-10、CIFAR-100の最先端ニューラルネットワークトレーニングに関する実験では、新しい$S_{\rm rel}$が、サンプルデータと同じクラス内で予測を変更するのに好まれる重み更新の特性をどのように検出するかを示す。
次に、最初の$s_{\rm rel}$が2ドルのフェーズの振る舞いを示す回帰を行うニューラルネットワークの例を例示して、トレーニングは$s_{\rm rel}$が急速に変化する場合の最初の弾性フェーズ、$s_{\rm rel}$が大きくなる場合の最終的な非弾性フェーズを経て行われることを実証する。
最後に、元の$s_{\rm rel}$関数の閉形式式を得ることができる勾配フローによる学習の複数の例を示す。
これらの導出公式のプロットを調べることによって、回帰設定における$s_{\rm rel}$の実験的に検出された性質のいくつかを理論的に実証した。
関連論文リスト
- Gradient Descent Finds Over-Parameterized Neural Networks with Sharp Generalization for Nonparametric Regression: A Distribution-Free Analysis [19.988762532185884]
ニューラルネットワークが早期停止でGDによってトレーニングされている場合、トレーニングされたネットワークは、非パラメトリック回帰リスクが$cO(eps_n2)$のシャープレートを示す。
本研究の結果は,トレーニングデータに分布的な仮定を必要としないことが示唆された。
論文 参考訳(メタデータ) (2024-11-05T08:43:54Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Provable Identifiability of Two-Layer ReLU Neural Networks via LASSO
Regularization [15.517787031620864]
LASSOの領域は、ファッショナブルで強力な非線形回帰モデルである2層ReLUニューラルネットワークに拡張される。
LASSO推定器はニューラルネットワークを安定的に再構築し,サンプル数が対数的にスケールする場合に$mathcalSstar$を識別可能であることを示す。
我々の理論は、2層ReLUニューラルネットワークのための拡張Restricted Isometry Property (RIP)ベースの分析フレームワークにある。
論文 参考訳(メタデータ) (2023-05-07T13:05:09Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Characterizing Datapoints via Second-Split Forgetting [93.99363547536392]
我々は、オリジナルのトレーニング例が忘れられた後(もしあれば)のエポックを追跡する補足的メトリックである$$-second-$split$$forgetting$$$time$ (SSFT)を提案する。
例えば$mislabeled$の例はすぐに忘れられ、$rare$の例は比較的ゆっくりと忘れられています。
SSFTは、(i)間違ったラベル付きサンプルを識別し、その除去により一般化が向上し、(ii)障害モードに関する洞察を提供する。
論文 参考訳(メタデータ) (2022-10-26T21:03:46Z) - Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。
単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文 参考訳(メタデータ) (2022-02-01T18:15:24Z) - Neural Capacitance: A New Perspective of Neural Network Selection via
Edge Dynamics [85.31710759801705]
現在の実践は、性能予測のためのモデルトレーニングにおいて高価な計算コストを必要とする。
本稿では,学習中のシナプス接続(エッジ)上の制御ダイナミクスを解析し,ニューラルネットワーク選択のための新しいフレームワークを提案する。
我々のフレームワークは、ニューラルネットワークトレーニング中のバックプロパゲーションがシナプス接続の動的進化と等価であるという事実に基づいて構築されている。
論文 参考訳(メタデータ) (2022-01-11T20:53:15Z) - Imitating Deep Learning Dynamics via Locally Elastic Stochastic
Differential Equations [20.066631203802302]
本研究では, 深層学習における特徴の進化を, それぞれが学習サンプルに対応する微分方程式(SDE)を用いて研究する。
我々の結果は、ニューラルネットワークのトレーニング力学における局所弾性の決定的な役割に光を当てた。
論文 参考訳(メタデータ) (2021-10-11T17:17:20Z) - Understanding the Under-Coverage Bias in Uncertainty Estimation [58.03725169462616]
量子レグレッションは、現実の望ましいカバレッジレベルよりもアンファンダーカバー(enmphunder-cover)する傾向がある。
我々は、量子レグレッションが固有のアンダーカバーバイアスに悩まされていることを証明している。
我々の理論は、この過大被覆バイアスが特定の高次元パラメータ推定誤差に起因することを明らかにしている。
論文 参考訳(メタデータ) (2021-06-10T06:11:55Z) - The Impact of the Mini-batch Size on the Variance of Gradients in
Stochastic Gradient Descent [28.148743710421932]
ミニバッチ勾配勾配(SGD)アルゴリズムは機械学習モデルのトレーニングに広く用いられている。
線形回帰および2層線形ネットワーク下でのSGDダイナミクスについて検討し,より深い線形ネットワークへの拡張を容易にする。
論文 参考訳(メタデータ) (2020-04-27T20:06:11Z) - Online Tensor-Based Learning for Multi-Way Data [1.0953917735844645]
オンラインの$CANDECOMP/PARAFAC$分解のために、新しい効率的なテンソルベースの特徴抽出法NeSGDが提案されている。
その結果,提案手法は分類誤り率を大幅に改善し,時間とともに正のデータ分布の変化を同化することができ,全てのケーススタディにおいて高い予測精度を維持した。
論文 参考訳(メタデータ) (2020-03-10T02:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。