論文の概要: Do We Actually Need Dense Over-Parameterization? In-Time
Over-Parameterization in Sparse Training
- arxiv url: http://arxiv.org/abs/2102.02887v1
- Date: Thu, 4 Feb 2021 20:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-08 14:52:08.874651
- Title: Do We Actually Need Dense Over-Parameterization? In-Time
Over-Parameterization in Sparse Training
- Title(参考訳): Dense over-Parameterizationは本当に必要ですか?
スパーストレーニングにおける時間過度パラメータ化
- Authors: Shiwei Liu, Lu Yin, Decebal Constantin Mocanu, Mykola Pechenizkiy
- Abstract要約: スパーストレーニングにおけるITOP(In-Time Over-Resibilityization)の概念を提案する。
ITOPはスパーストレーニングと密集トレーニングのギャップを埋めます。
本稿では,我々の予想を裏付け,最先端のスパーストレーニング性能を達成するための一連の実験について述べる。
- 参考スコア(独自算出の注目度): 16.81321230135317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce a new perspective on training deep neural
networks capable of state-of-the-art performance without the need for the
expensive over-parameterization by proposing the concept of In-Time
Over-Parameterization (ITOP) in sparse training. By starting from a random
sparse network and continuously exploring sparse connectivities during
training, we can perform an Over-Parameterization in the space-time manifold,
closing the gap in the expressibility between sparse training and dense
training. We further use ITOP to understand the underlying mechanism of Dynamic
Sparse Training (DST) and indicate that the benefits of DST come from its
ability to consider across time all possible parameters when searching for the
optimal sparse connectivity. As long as there are sufficient parameters that
have been reliably explored during training, DST can outperform the dense
neural network by a large margin. We present a series of experiments to support
our conjecture and achieve the state-of-the-art sparse training performance
with ResNet-50 on ImageNet. More impressively, our method achieves dominant
performance over the overparameterization-based sparse methods at extreme
sparsity levels. When trained on CIFAR-100, our method can match the
performance of the dense model even at an extreme sparsity (98%).
- Abstract(参考訳): 本稿では、スパーストレーニングにおけるIn-Time Over-Parameterization(ITOP)の概念を提案することにより、高コストなオーバーパラメータ化を必要とせず、最先端の性能を持つディープニューラルネットワークをトレーニングする新たな視点を提案する。
ランダムなスパースネットワークから始まり、トレーニング中にスパース接続性を連続的に探索することにより、時空多様体においてオーバーパラメータ化を行い、スパーストレーニングと密なトレーニングの表現可能性のギャップを埋めることができる。
さらにITOPを使用して、動的スパーストレーニング(DST)の基盤となるメカニズムを理解し、DSTの利点は、最適なスパース接続を探索する際に、時間にわたって可能なパラメータをすべて考慮できる能力から来ていることを示す。
トレーニング中に確実に探索された十分なパラメータがある限り、DSTは高密度ニューラルネットワークを大きなマージンで上回ることができる。
本稿では,イメージネット上でResNet-50を用いた最先端のスパーストレーニング性能を実現するための一連の実験について述べる。
より印象的なことに,本手法は過パラメータ化に基づくスパース法よりも極端に分散度の高い性能を実現する。
CIFAR-100でトレーニングすると, 極端に間隔(98%)でも高密度モデルの性能と一致させることができる。
関連論文リスト
- Sparse Spectral Training and Inference on Euclidean and Hyperbolic Neural Networks [9.96381061452642]
SST(Sparse Spectral Training)は、全ての特異値を更新し、ネットワーク重みの特異ベクトルを選択的に更新する高度な訓練手法である。
SSTは、特異値の重み付けによる多項サンプリング法により決定される特異ベクトルに対する目標更新戦略を用いて、トレーニングプロセスを洗練する。
OPT-125Mでは、組込み寸法の8.3%に等しく、SSTはパープレキシティギャップを67.6%減らし、一般的なローランク法で性能損失を著しく低減した。
論文 参考訳(メタデータ) (2024-05-24T11:59:41Z) - Disentangling Spatial and Temporal Learning for Efficient Image-to-Video
Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。
DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。
5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2023-09-14T17:58:33Z) - Dynamic Sparse Training with Structured Sparsity [11.778353786208765]
ダイナミックスパーストレーニング(DST)法は、スパースニューラルネットワークトレーニングにおいて最先端の結果を達成する。
本研究では, 微細構造N:M空間の変形を学習するために, スパース・ツー・スパースDST法, Structured RigL (SRigL)を提案する。
オンライン推論用CPUでは3.4x/2.5x、GPUでは1.7x/13.0x、バッチサイズは256である。
論文 参考訳(メタデータ) (2023-05-03T17:48:55Z) - Dynamic Sparse Training via Balancing the Exploration-Exploitation
Trade-off [19.230329532065635]
スパーストレーニングは、モデルサイズを減らすことで、トレーニングコストを大幅に削減する可能性がある。
既存のスパーストレーニング方法は、主にランダムベースまたはグリーディベースのドロップ・アンド・グロー戦略を使用する。
本研究では,動的スパース学習をスパース接続探索問題として考察する。
実験の結果,提案手法により得られたスパースモデル(最大98%のスパース)は,SOTAスパース訓練法より優れていた。
論文 参考訳(メタデータ) (2022-11-30T01:22:25Z) - Online Training Through Time for Spiking Neural Networks [66.7744060103562]
スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされたエネルギー効率のモデルである。
近年のトレーニング手法の進歩により、レイテンシの低い大規模タスクにおいて、ディープSNNを成功させることができた。
本稿では,BPTT から派生した SNN の時間的学習(OTTT)によるオンライントレーニングを提案する。
論文 参考訳(メタデータ) (2022-10-09T07:47:56Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - MEST: Accurate and Fast Memory-Economic Sparse Training Framework on the
Edge [72.16021611888165]
本稿では,エッジデバイス上での高精度かつ高速な実行を目的とした,メモリ・エコノミクス・スパース・トレーニング(MEST)フレームワークを提案する。
提案されているMESTフレームワークは、Elastic Mutation (EM)とSoft Memory Bound (&S)による拡張で構成されている。
以上の結果から,スペーサマスクの動的探索においても,忘れられない例をその場で特定できることが示唆された。
論文 参考訳(メタデータ) (2021-10-26T21:15:17Z) - Selfish Sparse RNN Training [13.165729746380816]
本稿では,1回のランでパラメータ数を固定したスパースRNNを,性能を損なうことなく訓練する手法を提案する。
我々はPenn TreeBankとWikitext-2の様々なデータセットを用いて最先端のスパーストレーニング結果を得る。
論文 参考訳(メタデータ) (2021-01-22T10:45:40Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z) - Progressive Skeletonization: Trimming more fat from a network at
initialization [76.11947969140608]
本稿では,接続感度が最大となるスケルトン化ネットワークを提案する。
次に、目的を最大化する2つの近似手順を提案する。
提案手法は, 高い刈り込みレベルにおいて, 性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-06-16T11:32:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。