論文の概要: Dynamic Collective Intelligence Learning: Finding Efficient Sparse Model
via Refined Gradients for Pruned Weights
- arxiv url: http://arxiv.org/abs/2109.04660v2
- Date: Mon, 31 Jul 2023 23:10:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 18:35:59.604370
- Title: Dynamic Collective Intelligence Learning: Finding Efficient Sparse Model
via Refined Gradients for Pruned Weights
- Title(参考訳): 動的集団知能学習:刈り込み重みに対する精製勾配による効率的なスパースモデル探索
- Authors: Jangho Kim, Jayeon Yoo, Yeji Song, KiYoon Yoo, Nojun Kwak
- Abstract要約: 動的プルーニング法は, STE(Straight-Through-Estimator)を用いて, プルーニング重量の勾配を近似することにより, トレーニング中に多様なスペーサ性パターンを求める。
我々は,2組の重みから2つの前方経路を形成することにより,刈り上げ重みを更新するための洗練された勾配を導入する。
本稿では,両重み集合の集合的知性間の学習相乗効果を利用した新しい動的集団知能学習(DCIL)を提案する。
- 参考スコア(独自算出の注目度): 31.68257673664519
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the growth of deep neural networks (DNN), the number of DNN parameters
has drastically increased. This makes DNN models hard to be deployed on
resource-limited embedded systems. To alleviate this problem, dynamic pruning
methods have emerged, which try to find diverse sparsity patterns during
training by utilizing Straight-Through-Estimator (STE) to approximate gradients
of pruned weights. STE can help the pruned weights revive in the process of
finding dynamic sparsity patterns. However, using these coarse gradients causes
training instability and performance degradation owing to the unreliable
gradient signal of the STE approximation. In this work, to tackle this issue,
we introduce refined gradients to update the pruned weights by forming dual
forwarding paths from two sets (pruned and unpruned) of weights. We propose a
novel Dynamic Collective Intelligence Learning (DCIL) which makes use of the
learning synergy between the collective intelligence of both weight sets. We
verify the usefulness of the refined gradients by showing enhancements in the
training stability and the model performance on the CIFAR and ImageNet
datasets. DCIL outperforms various previously proposed pruning schemes
including other dynamic pruning methods with enhanced stability during
training.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)の成長に伴い、DNNパラメータの数が大幅に増加した。
これにより、DNNモデルはリソース制限された組み込みシステムにデプロイするのが困難になる。
この問題を軽減するために,ストレート・スルー・エスティメータ(ste)を駆除重みの近似勾配に利用し,トレーニング中に多様なスパースパターンを求める動的プルーニング法が出現した。
STEは、ダイナミックなスパーシティパターンを見つける過程において、刈り取られた重量を回復させるのに役立つ。
しかし、これらの粗い勾配を用いることで、STE近似の信頼性の低い勾配信号によるトレーニング不安定性と性能劣化が生じる。
そこで本研究では,2組の重みから2組のフォワーディングパスを形成することにより,重みの更新に洗練された勾配を導入する。
本稿では,両重み集合の集合的知性間の学習相乗効果を利用した新しい動的集団知能学習(DCIL)を提案する。
CIFARおよびImageNetデータセット上でのトレーニング安定性とモデル性能の向上を示すことにより、改良された勾配の有用性を検証する。
DCILは、トレーニング中に安定性を向上した他の動的プルーニング手法を含む、以前に提案されたプルーニング方式よりも優れている。
関連論文リスト
- FedDIP: Federated Learning with Extreme Dynamic Pruning and Incremental
Regularization [5.182014186927254]
大規模Deep Neural Networks(DNN)の分散トレーニングと推論にFL(Federated Learning)が成功している。
我々は、(i)動的プルーニングとエラーフィードバックを組み合わせて冗長な情報交換を排除する新しいFLフレームワーク(Coined FedDIP)にコントリビュートする。
我々は、FedDIPの収束解析と総合的な性能について報告し、最先端手法との比較評価を行う。
論文 参考訳(メタデータ) (2023-09-13T08:51:19Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - FOSTER: Feature Boosting and Compression for Class-Incremental Learning [52.603520403933985]
ディープニューラルネットワークは、新しいカテゴリーを学ぶ際に破滅的な忘れ方に悩まされる。
本稿では,新たなカテゴリを適応的に学習するためのモデルとして,新しい2段階学習パラダイムFOSTERを提案する。
論文 参考訳(メタデータ) (2022-04-10T11:38:33Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Inverse-Dirichlet Weighting Enables Reliable Training of Physics
Informed Neural Networks [2.580765958706854]
我々は、深層ニューラルネットワークのトレーニング中に、スケール不均衡を伴うマルチスケールダイナミクスから生じる障害モードを記述し、治療する。
PINNは、物理方程式モデルとデータとのシームレスな統合を可能にする、一般的な機械学習テンプレートである。
逐次トレーニングを用いた逆モデリングでは,逆ディリクレ重み付けがPINNを破滅的忘れから保護することがわかった。
論文 参考訳(メタデータ) (2021-07-02T10:01:37Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z) - Neural networks with late-phase weights [66.72777753269658]
学習後期に重みのサブセットを組み込むことで,SGDの解をさらに改善できることを示す。
学習の終わりに、重み空間における空間平均を取ることにより、1つのモデルを取得する。
論文 参考訳(メタデータ) (2020-07-25T13:23:37Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。