論文の概要: Are Straight-Through gradients and Soft-Thresholding all you need for
Sparse Training?
- arxiv url: http://arxiv.org/abs/2212.01076v1
- Date: Fri, 2 Dec 2022 10:32:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 15:55:11.847018
- Title: Are Straight-Through gradients and Soft-Thresholding all you need for
Sparse Training?
- Title(参考訳): ストレートスルー勾配とソフトスレッディングはスパーストレーニングに必要か?
- Authors: Antoine Vanderschueren and Christophe De Vleeschouwer
- Abstract要約: ニューラルネットワークのトレーニング時に重みをゼロにすることは、推論時の計算複雑性を低減するのに役立つ。
トレーニング中に急激な重量不連続を生じさせることなく,ネットワーク内の空間密度比を徐々に高めるために,ソフトスレッディングとストレートスルー勾配推定を組み合わせる。
提案手法は,ストレートスルー/ソフトスレッショルド/スパーストレーニングのためのST-3と命名され,精度/スパース性および精度/FLOPSトレードオフの両面からSoA結果を得る。
- 参考スコア(独自算出の注目度): 21.889275006087875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Turning the weights to zero when training a neural network helps in reducing
the computational complexity at inference. To progressively increase the
sparsity ratio in the network without causing sharp weight discontinuities
during training, our work combines soft-thresholding and straight-through
gradient estimation to update the raw, i.e. non-thresholded, version of zeroed
weights. Our method, named ST-3 for
straight-through/soft-thresholding/sparse-training, obtains SoA results, both
in terms of accuracy/sparsity and accuracy/FLOPS trade-offs, when progressively
increasing the sparsity ratio in a single training cycle. In particular,
despite its simplicity, ST-3 favorably compares to the most recent methods,
adopting differentiable formulations or bio-inspired neuroregeneration
principles. This suggests that the key ingredients for effective sparsification
primarily lie in the ability to give the weights the freedom to evolve smoothly
across the zero state while progressively increasing the sparsity ratio. Source
code and weights available at https://github.com/vanderschuea/stthree
- Abstract(参考訳): ニューラルネットワークをトレーニングするとき、重みをゼロにすることは、推論の計算複雑性を減らすのに役立ちます。
トレーニング中に急激な重みの不連続を生じさせることなく,ネットワーク内の疎度比を漸進的に向上させるため,ソフトスレッディングとストレートスルー勾配推定を組み合わせることで,ゼロトレッディング版を更新する。
本手法は, ストレートスルー/ソフトスレッショルド/スパーストレーニングのためのST-3と命名され, 1回のトレーニングサイクルにおいて, 間隔比を徐々に増大させると, 精度/スパース性および精度/FLOPSトレードオフの両面からSoA結果を得る。
特に、その単純さにもかかわらず、st-3は最も最近の方法と比較し、微分可能な定式化や生体インスパイアされた神経再生原理を採用する。
これは、有効スパーシフィケーションの鍵となる要素は、重み付けにゼロ状態を越えてスムーズに進化できる自由を与えつつ、スパーシフィケーション比を徐々に増加させる能力であることを示唆している。
ソースコードと重みはhttps://github.com/vanderschuea/stthreeで利用可能
関連論文リスト
- Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - Weight Compander: A Simple Weight Reparameterization for Regularization [5.744133015573047]
我々は、ディープニューラルネットワークの一般化を改善するための新しい効果的な方法であるウェイトコンパンダを導入する。
標準正規化法に加えて重みコンパンダを用いることで,ニューラルネットワークの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-06-29T14:52:04Z) - InRank: Incremental Low-Rank Learning [85.6380047359139]
勾配に基づくトレーニングは、トレーニング中のランクの段階的な増加を通じて、ニューラルネットワークを低ランクのソリューションに向けて暗黙的に正規化する。
既存のトレーニングアルゴリズムでは、計算効率を向上させるために、ローランクな特性を活用できない。
InRank(Incremental Low-Rank Learning)は,低ランク行列として累積重み更新を明示的に表現する学習アルゴリズムである。
論文 参考訳(メタデータ) (2023-06-20T03:03:04Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Adversarial Unlearning: Reducing Confidence Along Adversarial Directions [88.46039795134993]
本稿では,自己生成事例の信頼性を低下させる補完的な正規化戦略を提案する。
RCADと呼ばれるこの手法は、トレーニング損失を増やすために反対に選択された方向に沿って横たわっている流通外の事例に対する信頼性を低下させることを目的としている。
その単純さにもかかわらず、多くの分類ベンチマークでは、RCADを既存の技術に追加して、絶対値の1~3%の精度でテストできることがわかった。
論文 参考訳(メタデータ) (2022-06-03T02:26:24Z) - $S^3$: Sign-Sparse-Shift Reparametrization for Effective Training of
Low-bit Shift Networks [41.54155265996312]
シフトニューラルネットワークは、高価な乗算演算を除去し、連続的な重みを低ビットの離散値に量子化することによって複雑さを低減する。
提案手法は、シフトニューラルネットワークの境界を押し上げ、3ビットシフトネットワークは、ImageNet上でトップ1の精度で、フル精度のニューラルネットワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-07-07T19:33:02Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - Training Sparse Neural Networks using Compressed Sensing [13.84396596420605]
本研究では,プレニングとトレーニングを1ステップに組み合わせた圧縮センシングに基づく新しい手法の開発と試験を行う。
具体的には、トレーニング中の重みを適応的に重み付けした$ell1$のペナルティを利用して、スパースニューラルネットワークをトレーニングするために、正規化二重平均化(RDA)アルゴリズムの一般化と組み合わせる。
論文 参考訳(メタデータ) (2020-08-21T19:35:54Z) - Training highly effective connectivities within neural networks with
randomly initialized, fixed weights [4.56877715768796]
重みの符号を反転させてネットワークを訓練する新しい方法を提案する。
重みが一定等級であっても、高非対称分布から重みが引き出される場合でも良い結果が得られる。
論文 参考訳(メタデータ) (2020-06-30T09:41:18Z) - Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality
Regularization and Singular Value Sparsification [53.50708351813565]
各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。
SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
論文 参考訳(メタデータ) (2020-04-20T02:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。