論文の概要: How many degrees of freedom do we need to train deep networks: a loss
landscape perspective
- arxiv url: http://arxiv.org/abs/2107.05802v1
- Date: Tue, 13 Jul 2021 01:29:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-15 01:05:53.738051
- Title: How many degrees of freedom do we need to train deep networks: a loss
landscape perspective
- Title(参考訳): 深層ネットワークの訓練に必要な自由度:損失景観の観点から
- Authors: Brett W. Larsen, Stanislav Fort, Nic Becker, Surya Ganguli
- Abstract要約: ディープニューラルネットワークは、パラメータの総数よりもはるかに少ない自由度でトレーニング可能であることを示す。
トレーニング次元がしきい値を超えると、成功確率の急激な位相遷移が0ドルから1ドルになる。
このしきい値トレーニング次元は、訓練の自由度を減らすためのより洗練された方法の有効性を評価するための強力なヌルモデルを提供する。
- 参考スコア(独自算出の注目度): 28.414369753825884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A variety of recent works, spanning pruning, lottery tickets, and training
within random subspaces, have shown that deep neural networks can be trained
using far fewer degrees of freedom than the total number of parameters. We
explain this phenomenon by first examining the success probability of hitting a
training loss sub-level set when training within a random subspace of a given
training dimensionality. We find a sharp phase transition in the success
probability from $0$ to $1$ as the training dimension surpasses a threshold.
This threshold training dimension increases as the desired final loss
decreases, but decreases as the initial loss decreases. We then theoretically
explain the origin of this phase transition, and its dependence on
initialization and final desired loss, in terms of precise properties of the
high dimensional geometry of the loss landscape. In particular, we show via
Gordon's escape theorem, that the training dimension plus the Gaussian width of
the desired loss sub-level set, projected onto a unit sphere surrounding the
initialization, must exceed the total number of parameters for the success
probability to be large. In several architectures and datasets, we measure the
threshold training dimension as a function of initialization and demonstrate
that it is a small fraction of the total number of parameters, thereby
implying, by our theory, that successful training with so few dimensions is
possible precisely because the Gaussian width of low loss sub-level sets is
very large. Moreover, this threshold training dimension provides a strong null
model for assessing the efficacy of more sophisticated ways to reduce training
degrees of freedom, including lottery tickets as well a more optimal method we
introduce: lottery subspaces.
- Abstract(参考訳): プルーニング、抽選券、ランダムな部分空間内のトレーニングなど、最近の様々な研究によって、ディープニューラルネットワークはパラメータの総数よりもはるかに少ない自由度でトレーニングできることが示されている。
まず、与えられた訓練次元のランダムな部分空間内でトレーニングを行う場合、トレーニング損失サブレベルセットをヒットする成功確率を調べることにより、この現象を説明する。
トレーニング次元がしきい値を超えると、成功確率の急激な位相遷移が0ドルから1ドルになる。
このしきい値トレーニング寸法は、所望の最終損失が減少するにつれて増加するが、初期損失が減少するにつれて減少する。
次に, この相転移の起源を理論的に説明し, 損失景観の高次元幾何学の精密な性質の観点から, 初期化と最終所望損失に依存することを説明する。
特に、ゴードンの脱出定理(英語版)を通して、初期化を囲む単位球面に投影される所望の損失部分レベル集合の訓練次元とガウス幅が、成功確率が大きくなるためのパラメータの総数を超えなければならないことを示す。
いくつかのアーキテクチャとデータセットにおいて、しきい値トレーニング次元を初期化の関数として測定し、パラメータの総数のごく一部であることを証明した。
さらに、このしきい値トレーニングディメンションは、宝くじや、より最適な方法である宝くじサブスペースを含む、より洗練された自由度訓練方法の有効性を評価するための強力なヌルモデルを提供する。
関連論文リスト
- Deep Loss Convexification for Learning Iterative Models [11.36644967267829]
点雲登録のための反復的最近点(ICP)のような反復的手法は、しばしば悪い局所最適性に悩まされる。
我々は,各地真実の周囲に凸景観を形成する学習を提案する。
論文 参考訳(メタデータ) (2024-11-16T01:13:04Z) - Size Lowerbounds for Deep Operator Networks [0.27195102129094995]
我々は、ノイズの多いデータに対する経験的エラーを低減するために必要なDeepONetsのサイズに対して、データ依存の低いバウンドを確立する。
固定モデルサイズにおいて、この共通出力次元の増大を利用してトレーニング誤差の単調な低減を実現するためには、トレーニングデータのサイズが少なくとも2次的にスケールする必要があることを実証する。
論文 参考訳(メタデータ) (2023-08-11T18:26:09Z) - Dimensionality Reduced Training by Pruning and Freezing Parts of a Deep
Neural Network, a Survey [69.3939291118954]
最先端のディープラーニングモデルには、何十億にも達するパラメータカウントがある。そのようなモデルのトレーニング、保存、転送は、エネルギーと時間を要するため、コストがかかる。
モデル圧縮は、ストレージと転送コストを低減し、フォワードおよび/または後方パスでの計算数を減少させることで、トレーニングをより効率的にすることができる。
この研究は、トレーニング全体を通してディープラーニングモデルでトレーニングされた重量を減らす方法に関する調査である。
論文 参考訳(メタデータ) (2022-05-17T05:37:08Z) - Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。
我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文 参考訳(メタデータ) (2021-11-02T20:24:01Z) - Overparameterization of deep ResNet: zero loss and mean-field analysis [19.45069138853531]
データに適合するディープニューラルネットワーク(NN)内のパラメータを見つけることは、非最適化問題である。
基礎的な一階述語最適化法(漸進降下法)は,多くの現実的状況に完全に適合した大域的解を求める。
所定の閾値未満の損失を減らすために必要な深さと幅を高い確率で推定する。
論文 参考訳(メタデータ) (2021-05-30T02:46:09Z) - Perspective: A Phase Diagram for Deep Learning unifying Jamming, Feature
Learning and Lazy Training [4.318555434063275]
ディープラーニングアルゴリズムは、画像認識やgoプレイなど、さまざまなタスクにおける技術革命の責任を負う。
しかし、なぜ働くのかは分かっていない。
最終的に、彼らは高い次元に横たわるデータを分類することに成功しました。
我々は、異なる学習体制をフェーズダイアグラムにまとめることができると論じる。
論文 参考訳(メタデータ) (2020-12-30T11:00:36Z) - Mixed-Privacy Forgetting in Deep Networks [114.3840147070712]
大規模画像分類タスクにおいてトレーニングされたネットワークの重みからトレーニングサンプルのサブセットの影響を除去できることを示す。
そこで本研究では,混合プライバシー設定における「忘れ」という新しい概念を導入する。
提案手法は,モデル精度のトレードオフを伴わずに忘れることができることを示す。
論文 参考訳(メタデータ) (2020-12-24T19:34:56Z) - Over-parametrized neural networks as under-determined linear systems [31.69089186688224]
単純なニューラルネットワークがトレーニング損失をゼロにできるのは当然のことだ。
ReLUアクティベーション関数に典型的に関連付けられたカーネルには、根本的な欠陥があることが示される。
本稿では,ReLUの落とし穴を避けるための新たなアクティベーション関数を提案する。
論文 参考訳(メタデータ) (2020-10-29T21:43:00Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z) - Implicit Bias in Deep Linear Classification: Initialization Scale vs
Training Accuracy [71.25689267025244]
移行がスケールとトレーニング損失の最小化の関係によってどのように制御されるかを示す。
以上の結果から,勾配降下の限界挙動は,ばかげた訓練精度でのみ引き起こされることが示唆された。
論文 参考訳(メタデータ) (2020-07-13T23:49:53Z) - Over-parameterized Adversarial Training: An Analysis Overcoming the
Curse of Dimensionality [74.0084803220897]
逆行訓練は、逆行性摂動に対する神経網の堅牢性を与える一般的な方法である。
自然仮定とReLUアクティベーションの下で, 指数的ではなく, 低ロバストトレーニング損失に対する収束性を示す。
論文 参考訳(メタデータ) (2020-02-16T20:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。