論文の概要: Spartan: Differentiable Sparsity via Regularized Transportation
- arxiv url: http://arxiv.org/abs/2205.14107v1
- Date: Fri, 27 May 2022 17:18:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-30 15:16:51.012601
- Title: Spartan: Differentiable Sparsity via Regularized Transportation
- Title(参考訳): Spartan: 正規化による分散性
- Authors: Kai Sheng Tai, Taipeng Tian, Ser-Nam Lim
- Abstract要約: Spartanは、所定の間隔でスパースニューラルネットワークモデルをトレーニングする方法である。
ImageNet-1K分類では、スパルタは95%のスパース ResNet-50 モデルと90%のブロックスパルス ViT-B/16 モデルを生成する。
- 参考スコア(独自算出の注目度): 31.084698051510873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Spartan, a method for training sparse neural network models with a
predetermined level of sparsity. Spartan is based on a combination of two
techniques: (1) soft top-k masking of low-magnitude parameters via a
regularized optimal transportation problem and (2) dual averaging-based
parameter updates with hard sparsification in the forward pass. This scheme
realizes an exploration-exploitation tradeoff: early in training, the learner
is able to explore various sparsity patterns, and as the soft top-k
approximation is gradually sharpened over the course of training, the balance
shifts towards parameter optimization with respect to a fixed sparsity mask.
Spartan is sufficiently flexible to accommodate a variety of sparsity
allocation policies, including both unstructured and block structured sparsity,
as well as general cost-sensitive sparsity allocation mediated by linear models
of per-parameter costs. On ImageNet-1K classification, Spartan yields 95%
sparse ResNet-50 models and 90% block sparse ViT-B/16 models while incurring
absolute top-1 accuracy losses of less than 1% compared to fully dense
training.
- Abstract(参考訳): 本稿では,スパースニューラルネットワークモデルを所定の間隔でトレーニングする方法であるSpartanを提案する。
スパルタンは,(1)正則化最適輸送問題による低次パラメータのソフトトップkマスキング,(2)前方通過におけるハードスパシフィケーションを伴う2つの平均パラメータ更新の2つの手法の組み合わせに基づいている。
このスキームは, 早期に学習者が様々な空間パターンを探索し, 柔らかいトップk近似が訓練の過程で徐々に高度化されるにつれて, パラメータ最適化へのバランスシフトが固定された空間マスクに対して行われる。
スパルタは、非構造とブロック構造の両方の空間配置ポリシーや、パラメータごとのコストの線形モデルによって仲介される一般的なコスト感受性の空間配置など、様々な空間配置ポリシーに対応するのに十分な柔軟性がある。
ImageNet-1K分類では、スパルタは95%のスパース ResNet-50 モデルと90%のブロックススパース ViT-B/16 モデルを生成し、完全密集トレーニングと比較して絶対的なトップ1精度の損失は1%未満である。
関連論文リスト
- Scaling Laws for Sparsely-Connected Foundation Models [70.41266138010657]
大規模データセット上でトレーニングしたトランスフォーマーのスケーリング挙動に及ぼすパラメータ空間の影響について検討する。
重み空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を同定する。
論文 参考訳(メタデータ) (2023-09-15T16:29:27Z) - AUTOSPARSE: Towards Automated Sparse Training of Deep Neural Networks [2.6742343015805083]
本稿では,ニューラルネットワーク内に存在する空間の均一分布を探索するグラディエント・アナリング(GA)を提案する。
GAは、余剰を誘導する正規化を必要とせずに、余剰と正確性の間のエレガントなトレードオフを提供する。
GAと最新の学習可能なプルーニング手法を統合し、AutoSparseと呼ばれる自動スパーストレーニングアルゴリズムを作成する。
論文 参考訳(メタデータ) (2023-04-14T06:19:07Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Dynamic Sparse Training via Balancing the Exploration-Exploitation
Trade-off [19.230329532065635]
スパーストレーニングは、モデルサイズを減らすことで、トレーニングコストを大幅に削減する可能性がある。
既存のスパーストレーニング方法は、主にランダムベースまたはグリーディベースのドロップ・アンド・グロー戦略を使用する。
本研究では,動的スパース学習をスパース接続探索問題として考察する。
実験の結果,提案手法により得られたスパースモデル(最大98%のスパース)は,SOTAスパース訓練法より優れていた。
論文 参考訳(メタデータ) (2022-11-30T01:22:25Z) - Training Your Sparse Neural Network Better with Any Mask [106.134361318518]
高品質で独立したトレーニング可能なスパースマスクを作成するために、大規模なニューラルネットワークをプルーニングすることが望ましい。
本稿では、デフォルトの高密度ネットワークトレーニングプロトコルから逸脱するためにスパーストレーニングテクニックをカスタマイズできる別の機会を示す。
我々の新しいスパーストレーニングレシピは、スクラッチから様々なスパースマスクでトレーニングを改善するために一般的に適用されます。
論文 参考訳(メタデータ) (2022-06-26T00:37:33Z) - Federated Progressive Sparsification (Purge, Merge, Tune)+ [15.08232397899507]
FedSparsifyは、プログレッシブ・ウェイト・マグニチュード・プルーニングに基づくスパーシフィケーション戦略である。
我々は,FedSparsifyが高空間性と学習性能の両方のサブネットワークを学習できることを実験的に示す。
論文 参考訳(メタデータ) (2022-04-26T16:45:53Z) - Sparsity Winning Twice: Better Robust Generalization from More Efficient
Training [94.92954973680914]
スパース対位訓練の代替として, (i) スタティック・スパシティと (ii) ダイナミック・スパシティの2つを紹介した。
いずれの方法も、ロバストな一般化ギャップを大幅に縮小し、ロバストなオーバーフィッティングを緩和する。
我々のアプローチは既存の正規化器と組み合わせて、敵の訓練における新たな最先端の成果を確立することができる。
論文 参考訳(メタデータ) (2022-02-20T15:52:08Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - Learning Neural Network Subspaces [74.44457651546728]
近年の観測は,ニューラルネットワーク最適化の展望の理解を深めている。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
論文 参考訳(メタデータ) (2021-02-20T23:26:58Z) - HALO: Learning to Prune Neural Networks with Shrinkage [5.283963846188862]
ディープニューラルネットワークは、構造化されていないデータから豊富な特徴セットを抽出することにより、さまざまなタスクで最先端のパフォーマンスを実現する。
提案手法は,(1)ネットワークプルーニング,(2)スパシティ誘導ペナルティによるトレーニング,(3)ネットワークの重みと連動してバイナリマスクをトレーニングすることである。
トレーニング可能なパラメータを用いて、与えられたネットワークの重みを適応的に分散化することを学ぶ階層適応ラッソ(Hierarchical Adaptive Lasso)という新しいペナルティを提案する。
論文 参考訳(メタデータ) (2020-08-24T04:08:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。