論文の概要: Lottery Tickets on a Data Diet: Finding Initializations with Sparse
Trainable Networks
- arxiv url: http://arxiv.org/abs/2206.01278v1
- Date: Thu, 2 Jun 2022 20:04:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-06 12:47:37.501242
- Title: Lottery Tickets on a Data Diet: Finding Initializations with Sparse
Trainable Networks
- Title(参考訳): データダイエットの宝くじ: スパーストレーニング可能なネットワークで初期化を見つける
- Authors: Mansheej Paul, Brett W. Larsen, Surya Ganguli, Jonathan Frankle,
Gintare Karolina Dziugaite
- Abstract要約: 反復トレーニング(IMP; Frankle et al.)に関する目覚ましい観察は、x2014x2014の数百ステップの密集した後に、x$である。
本研究では、この事前学習の初期段階が、データとネットワークの両方に優れたIMPをもたらすかを理解することを目的とする。
損失景観密度ネットワークの新たな特性を同定し,性能の予測を行う。
- 参考スコア(独自算出の注目度): 40.55816472416984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A striking observation about iterative magnitude pruning (IMP; Frankle et al.
2020) is that $\unicode{x2014}$ after just a few hundred steps of dense
training $\unicode{x2014}$ the method can find a sparse sub-network that can be
trained to the same accuracy as the dense network. However, the same does not
hold at step 0, i.e. random initialization. In this work, we seek to understand
how this early phase of pre-training leads to a good initialization for IMP
both through the lens of the data distribution and the loss landscape geometry.
Empirically we observe that, holding the number of pre-training iterations
constant, training on a small fraction of (randomly chosen) data suffices to
obtain an equally good initialization for IMP. We additionally observe that by
pre-training only on "easy" training data, we can decrease the number of steps
necessary to find a good initialization for IMP compared to training on the
full dataset or a randomly chosen subset. Finally, we identify novel properties
of the loss landscape of dense networks that are predictive of IMP performance,
showing in particular that more examples being linearly mode connected in the
dense network correlates well with good initializations for IMP. Combined,
these results provide new insight into the role played by the early phase
training in IMP.
- Abstract(参考訳): 反復的なマグニチュードプルーニング(IMP; Frankle et al. 2020)に関する顕著な観察によると、$\unicode{x2014}$は、数百ステップの高密度トレーニングの後、$\unicode{x2014}$は、高密度ネットワークと同じ精度でトレーニングできるスパースサブネットワークを見つけることができる。
しかし、ステップ0、すなわちランダム初期化では、同じことが成立しない。
本研究では、この事前学習の初期段階が、データ分布のレンズとロスランドスケープの幾何学の両方を通してIMPの優れた初期化につながるかを理解する。
経験的に、トレーニング済みのイテレーションの数を一定に保ち、(ランダムに選択された)少数のデータでトレーニングし、IMPの等しく良い初期化が得られることを観察する。
トレーニングデータのみを事前トレーニングすることで、完全なデータセットやランダムに選択されたサブセットと比較して、IMPの優れた初期化を見つけるために必要なステップの数を減らすことができる。
最後に,imp性能を予測している高密度ネットワークの損失景観の新たな特性を同定し,特に,高密度ネットワークで線形モードが接続されている例が,impの適切な初期化とよく相関することを示す。
これらの結果を組み合わせることで、IMPの初期段階トレーニングが果たす役割に関する新たな洞察が得られる。
関連論文リスト
- Benign Overfitting and Grokking in ReLU Networks for XOR Cluster Data [42.870635753205185]
勾配降下(GD)によって訓練されたニューラルネットワークは、多くの驚くべき一般化挙動を示した。
これらの現象は、XORクラスタデータ上でGDによって訓練された2層ReLUネットワークにおいて、良好に発生することを示す。
後続のトレーニングステップでは、ネットワークはトレーニングデータにランダムラベルをいまだに適合させながら、ほぼ最適のテスト精度を達成し、"グロッキング"現象を示す。
論文 参考訳(メタデータ) (2023-10-04T02:50:34Z) - Unsupervised Learning of Initialization in Deep Neural Networks via
Maximum Mean Discrepancy [74.34895342081407]
本稿では,入力データに対する優れた初期化を求めるための教師なしアルゴリズムを提案する。
まず、パラメータ空間における各パラメータ構成が、d-way分類の特定の下流タスクに対応することに気付く。
次に、学習の成功は、初期パラメータの近傍で下流タスクがいかに多様であるかに直接関連していると推測する。
論文 参考訳(メタデータ) (2023-02-08T23:23:28Z) - SEPT: Towards Scalable and Efficient Visual Pre-Training [11.345844145289524]
自己教師付き事前トレーニングは、ダウンストリームタスクのパフォーマンスを改善するために大規模なラベルなしデータを活用する大きな可能性を示している。
タスク固有の自己教師型事前学習フレームワークを構築し,対象タスクに類似した分布を持つ未ラベルサンプルの事前学習が,大幅な性能向上をもたらすという単純な仮説に基づいて構築する。
論文 参考訳(メタデータ) (2022-12-11T11:02:11Z) - Unmasking the Lottery Ticket Hypothesis: What's Encoded in a Winning
Ticket's Mask? [40.52143582292875]
トレーニング終了後に発見されたIMPマスクは,所望のサブ空間の同一性を伝達することを示す。
また,SGDは強靭性のため,この情報を活用できることを示す。
総合的に,優勝チケットの存在を軽視する動きが進んでいる。
論文 参考訳(メタデータ) (2022-10-06T16:50:20Z) - What to Prune and What Not to Prune at Initialization [0.0]
トレーニング後のドロップアウトベースのアプローチは、高いスパシティを実現する。
ネットワークの計算コストのスケーリングに関しては,初期化プルーニングの方が有効だ。
目標は、パフォーマンスを維持しながら、より高い疎性を達成することです。
論文 参考訳(メタデータ) (2022-09-06T03:48:10Z) - Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。
我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文 参考訳(メタデータ) (2021-11-02T20:24:01Z) - Dense for the Price of Sparse: Improved Performance of Sparsely
Initialized Networks via a Subspace Offset [0.0]
我々は,0.01%のトレーニング可能なカーネルパラメータが残っている場合でも,情報伝達とトレーニング性を維持する新しいDCT+Sparse層アーキテクチャを導入する。
標準のスパース層からDCTとスパース層への切り替えは、ネットワークのストレージフットプリントを増大させず、小さな計算オーバーヘッドしか発生しません。
論文 参考訳(メタデータ) (2021-02-12T00:05:02Z) - Efficient Conditional Pre-training for Transfer Learning [71.01129334495553]
本稿では,事前学習データセットから関連するサブセットを選択するための効率的なフィルタリング手法を提案する。
我々は、教師なし設定と教師なし設定の両方において、ImageNetで事前トレーニングを行うことで、我々の技術を検証する。
我々は、サブセットで利用可能なモデルをチューニングし、大規模なデータセットからフィルタリングされたデータセットで事前トレーニングすることで、標準のImageNet事前トレーニングを1~3%改善する。
論文 参考訳(メタデータ) (2020-11-20T06:16:15Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。