論文の概要: Lottery Tickets on a Data Diet: Finding Initializations with Sparse
Trainable Networks
- arxiv url: http://arxiv.org/abs/2206.01278v1
- Date: Thu, 2 Jun 2022 20:04:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-06 12:47:37.501242
- Title: Lottery Tickets on a Data Diet: Finding Initializations with Sparse
Trainable Networks
- Title(参考訳): データダイエットの宝くじ: スパーストレーニング可能なネットワークで初期化を見つける
- Authors: Mansheej Paul, Brett W. Larsen, Surya Ganguli, Jonathan Frankle,
Gintare Karolina Dziugaite
- Abstract要約: 反復トレーニング(IMP; Frankle et al.)に関する目覚ましい観察は、x2014x2014の数百ステップの密集した後に、x$である。
本研究では、この事前学習の初期段階が、データとネットワークの両方に優れたIMPをもたらすかを理解することを目的とする。
損失景観密度ネットワークの新たな特性を同定し,性能の予測を行う。
- 参考スコア(独自算出の注目度): 40.55816472416984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A striking observation about iterative magnitude pruning (IMP; Frankle et al.
2020) is that $\unicode{x2014}$ after just a few hundred steps of dense
training $\unicode{x2014}$ the method can find a sparse sub-network that can be
trained to the same accuracy as the dense network. However, the same does not
hold at step 0, i.e. random initialization. In this work, we seek to understand
how this early phase of pre-training leads to a good initialization for IMP
both through the lens of the data distribution and the loss landscape geometry.
Empirically we observe that, holding the number of pre-training iterations
constant, training on a small fraction of (randomly chosen) data suffices to
obtain an equally good initialization for IMP. We additionally observe that by
pre-training only on "easy" training data, we can decrease the number of steps
necessary to find a good initialization for IMP compared to training on the
full dataset or a randomly chosen subset. Finally, we identify novel properties
of the loss landscape of dense networks that are predictive of IMP performance,
showing in particular that more examples being linearly mode connected in the
dense network correlates well with good initializations for IMP. Combined,
these results provide new insight into the role played by the early phase
training in IMP.
- Abstract(参考訳): 反復的なマグニチュードプルーニング(IMP; Frankle et al. 2020)に関する顕著な観察によると、$\unicode{x2014}$は、数百ステップの高密度トレーニングの後、$\unicode{x2014}$は、高密度ネットワークと同じ精度でトレーニングできるスパースサブネットワークを見つけることができる。
しかし、ステップ0、すなわちランダム初期化では、同じことが成立しない。
本研究では、この事前学習の初期段階が、データ分布のレンズとロスランドスケープの幾何学の両方を通してIMPの優れた初期化につながるかを理解する。
経験的に、トレーニング済みのイテレーションの数を一定に保ち、(ランダムに選択された)少数のデータでトレーニングし、IMPの等しく良い初期化が得られることを観察する。
トレーニングデータのみを事前トレーニングすることで、完全なデータセットやランダムに選択されたサブセットと比較して、IMPの優れた初期化を見つけるために必要なステップの数を減らすことができる。
最後に,imp性能を予測している高密度ネットワークの損失景観の新たな特性を同定し,特に,高密度ネットワークで線形モードが接続されている例が,impの適切な初期化とよく相関することを示す。
これらの結果を組み合わせることで、IMPの初期段階トレーニングが果たす役割に関する新たな洞察が得られる。
関連論文リスト
- Finding Lottery Tickets in Vision Models via Data-driven Spectral Foresight Pruning [14.792099973449794]
本稿では,スパースネットワークのトレーニングダイナミクスと高密度ネットワークのトレーニングダイナミクスを一致させるアルゴリズムを提案する。
NTKスペクトルにおける通常無視されるデータ依存成分がどのように考慮されるかを示す。
パスeXclusion(PX)は、高頻度でも宝くじを見つけることができる。
論文 参考訳(メタデータ) (2024-06-03T22:19:42Z) - Sparser, Better, Deeper, Stronger: Improving Sparse Training with Exact Orthogonal Initialization [49.06421851486415]
静的スパーストレーニングは、スパースモデルをスクラッチからトレーニングすることを目的としており、近年顕著な成果を上げている。
ランダムなアジェンダ回転に基づく新しいスパースな直交初期化スキームであるExact Orthogonal Initialization (EOI)を提案する。
本手法は,残差接続や正規化を伴わずに,1000層ネットワークとCNNネットワークを疎結合に訓練することができる。
論文 参考訳(メタデータ) (2024-06-03T19:44:47Z) - Benign Overfitting and Grokking in ReLU Networks for XOR Cluster Data [42.870635753205185]
勾配降下(GD)によって訓練されたニューラルネットワークは、多くの驚くべき一般化挙動を示した。
これらの現象は、XORクラスタデータ上でGDによって訓練された2層ReLUネットワークにおいて、良好に発生することを示す。
後続のトレーニングステップでは、ネットワークはトレーニングデータにランダムラベルをいまだに適合させながら、ほぼ最適のテスト精度を達成し、"グロッキング"現象を示す。
論文 参考訳(メタデータ) (2023-10-04T02:50:34Z) - Unsupervised Learning of Initialization in Deep Neural Networks via
Maximum Mean Discrepancy [74.34895342081407]
本稿では,入力データに対する優れた初期化を求めるための教師なしアルゴリズムを提案する。
まず、パラメータ空間における各パラメータ構成が、d-way分類の特定の下流タスクに対応することに気付く。
次に、学習の成功は、初期パラメータの近傍で下流タスクがいかに多様であるかに直接関連していると推測する。
論文 参考訳(メタデータ) (2023-02-08T23:23:28Z) - SEPT: Towards Scalable and Efficient Visual Pre-Training [11.345844145289524]
自己教師付き事前トレーニングは、ダウンストリームタスクのパフォーマンスを改善するために大規模なラベルなしデータを活用する大きな可能性を示している。
タスク固有の自己教師型事前学習フレームワークを構築し,対象タスクに類似した分布を持つ未ラベルサンプルの事前学習が,大幅な性能向上をもたらすという単純な仮説に基づいて構築する。
論文 参考訳(メタデータ) (2022-12-11T11:02:11Z) - Unmasking the Lottery Ticket Hypothesis: What's Encoded in a Winning
Ticket's Mask? [40.52143582292875]
トレーニング終了後に発見されたIMPマスクは,所望のサブ空間の同一性を伝達することを示す。
また,SGDは強靭性のため,この情報を活用できることを示す。
総合的に,優勝チケットの存在を軽視する動きが進んでいる。
論文 参考訳(メタデータ) (2022-10-06T16:50:20Z) - Transformers Can Do Bayesian Inference [56.99390658880008]
我々はPFN(Presideed Data Fitted Networks)を提案する。
PFNは、大規模機械学習技術におけるインコンテキスト学習を活用して、大規模な後部集合を近似する。
我々は、PFNがガウス過程をほぼ完璧に模倣し、難解問題に対する効率的なベイズ推定を可能にすることを示した。
論文 参考訳(メタデータ) (2021-12-20T13:07:39Z) - Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。
我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文 参考訳(メタデータ) (2021-11-02T20:24:01Z) - Dense for the Price of Sparse: Improved Performance of Sparsely
Initialized Networks via a Subspace Offset [0.0]
我々は,0.01%のトレーニング可能なカーネルパラメータが残っている場合でも,情報伝達とトレーニング性を維持する新しいDCT+Sparse層アーキテクチャを導入する。
標準のスパース層からDCTとスパース層への切り替えは、ネットワークのストレージフットプリントを増大させず、小さな計算オーバーヘッドしか発生しません。
論文 参考訳(メタデータ) (2021-02-12T00:05:02Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。