論文の概要: Gradient-based Weight Density Balancing for Robust Dynamic Sparse
Training
- arxiv url: http://arxiv.org/abs/2210.14012v1
- Date: Tue, 25 Oct 2022 13:32:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 15:24:24.802967
- Title: Gradient-based Weight Density Balancing for Robust Dynamic Sparse
Training
- Title(参考訳): ロバストな動的スパーストレーニングのための勾配に基づく重み密度バランス
- Authors: Mathias Parger, Alexander Ertl, Paul Eibensteiner, Joerg H. Mueller,
Martin Winter, Markus Steinberger
- Abstract要約: スパースニューラルネットワークをゼロからトレーニングするには、接続自体と同時にコネクションを最適化する必要がある。
トレーニング中に各レイヤ間の接続は複数回最適化されるが、各レイヤの密度は通常一定である。
我々は、すべての層に重みを分散するテクニックであるGlobal Gradient-based Redistributionを提案する。
- 参考スコア(独自算出の注目度): 59.48691524227352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training a sparse neural network from scratch requires optimizing connections
at the same time as the weights themselves. Typically, the weights are
redistributed after a predefined number of weight updates, removing a fraction
of the parameters of each layer and inserting them at different locations in
the same layers. The density of each layer is determined using heuristics,
often purely based on the size of the parameter tensor. While the connections
per layer are optimized multiple times during training, the density of each
layer typically remains constant. This leaves great unrealized potential,
especially in scenarios with a high sparsity of 90% and more. We propose Global
Gradient-based Redistribution, a technique which distributes weights across all
layers - adding more weights to the layers that need them most. Our evaluation
shows that our approach is less prone to unbalanced weight distribution at
initialization than previous work and that it is able to find better performing
sparse subnetworks at very high sparsity levels.
- Abstract(参考訳): スパースニューラルネットワークをスクラッチからトレーニングするには、重み付け自体と同時に接続を最適化する必要がある。
通常、重みは事前に定義された多くの重み更新後に再配布され、各層のパラメータの一部を削除し、同じ層の異なる場所に挿入する。
各層の密度はヒューリスティックスを用いて決定され、しばしばパラメータテンソルのサイズに基づいて決定される。
層ごとの接続はトレーニング中に複数回最適化されるが、各層の密度は通常一定である。
これは、特に90%以上のスパース率の高いシナリオにおいて、大きな未実現の可能性を残している。
我々は,全層に重みを分散させる技術であるグローバル勾配に基づく再分配を提案する。
評価の結果,我々のアプローチは,初期化時の非バランスな重み分布に乏しく,非常に高いスパースレベルにおいて,より優れた性能のスパースサブネットワークを見つけることが可能であった。
関連論文リスト
- MixtureGrowth: Growing Neural Networks by Recombining Learned Parameters [19.358670728803336]
ほとんどのディープニューラルネットワークは、固定されたネットワークアーキテクチャの下でトレーニングされており、アーキテクチャの変更時に再トレーニングを必要とする。
これを回避するために、時間とともにランダムな重みを加えて小さなネットワークから成長させ、徐々にターゲットネットワークサイズを達成できる。
このナイーブなアプローチは、成長するプロセスに多くのノイズをもたらすため、実際には不足しています。
論文 参考訳(メタデータ) (2023-11-07T11:37:08Z) - Weight Compander: A Simple Weight Reparameterization for Regularization [5.744133015573047]
我々は、ディープニューラルネットワークの一般化を改善するための新しい効果的な方法であるウェイトコンパンダを導入する。
標準正規化法に加えて重みコンパンダを用いることで,ニューラルネットワークの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-06-29T14:52:04Z) - InRank: Incremental Low-Rank Learning [85.6380047359139]
勾配に基づくトレーニングは、トレーニング中のランクの段階的な増加を通じて、ニューラルネットワークを低ランクのソリューションに向けて暗黙的に正規化する。
既存のトレーニングアルゴリズムでは、計算効率を向上させるために、ローランクな特性を活用できない。
InRank(Incremental Low-Rank Learning)は,低ランク行列として累積重み更新を明示的に表現する学習アルゴリズムである。
論文 参考訳(メタデータ) (2023-06-20T03:03:04Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - Iterative Training: Finding Binary Weight Deep Neural Networks with
Layer Binarization [0.0]
低レイテンシやモバイルアプリケーションでは、計算量の削減、メモリフットプリントの削減、エネルギー効率の向上が望まれている。
重み二項化の最近の研究は、重み-入出力行列の乗法を加算に置き換えている。
完全二進法ではなく部分二進法の重み付けから、トレーニングがより優れた精度で完全二進法の重み付けネットワークに到達することを実証的に示す。
論文 参考訳(メタデータ) (2021-11-13T05:36:51Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - Layer-adaptive sparsity for the Magnitude-based Pruning [88.37510230946478]
本稿では,LAMP(Layer-Adaptive magnitude-based pruning)スコアを用いたグローバルプルーニングの新たな重要点を提案する。
LAMPは、階層的な空間選択のための一般的なスキームを一貫して上回っている。
論文 参考訳(メタデータ) (2020-10-15T09:14:02Z) - Training highly effective connectivities within neural networks with
randomly initialized, fixed weights [4.56877715768796]
重みの符号を反転させてネットワークを訓練する新しい方法を提案する。
重みが一定等級であっても、高非対称分布から重みが引き出される場合でも良い結果が得られる。
論文 参考訳(メタデータ) (2020-06-30T09:41:18Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Train-by-Reconnect: Decoupling Locations of Weights from their Values [6.09170287691728]
トレーニングされていないディープニューラルネットワーク(DNN)は、トレーニングされたニューラルネットワークとは異なることを示す。
重みをリコネクションすることでDNNをトレーニングするためのLookahead Permutation(LaPerm)という新しい手法を提案する。
初期重みが1つの値を共有すると、我々の手法はより精度のよい重み付きニューラルネットワークを見つける。
論文 参考訳(メタデータ) (2020-03-05T12:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。