Fugu-MT 論文翻訳(概要): Spartan: Differentiable Sparsity via Regularized Transportation

論文の概要: Spartan: Differentiable Sparsity via Regularized Transportation

arxiv url: http://arxiv.org/abs/2205.14107v1
Date: Fri, 27 May 2022 17:18:46 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-30 15:16:51.012601
Title: Spartan: Differentiable Sparsity via Regularized Transportation
Title（参考訳）: Spartan: 正規化による分散性
Authors: Kai Sheng Tai, Taipeng Tian, Ser-Nam Lim
Abstract要約: Spartanは、所定の間隔でスパースニューラルネットワークモデルをトレーニングする方法である。 ImageNet-1K分類では、スパルタは95%のスパース ResNet-50 モデルと90%のブロックスパルス ViT-B/16 モデルを生成する。
参考スコア（独自算出の注目度）: 31.084698051510873
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present Spartan, a method for training sparse neural network models with a predetermined level of sparsity. Spartan is based on a combination of two techniques: (1) soft top-k masking of low-magnitude parameters via a regularized optimal transportation problem and (2) dual averaging-based parameter updates with hard sparsification in the forward pass. This scheme realizes an exploration-exploitation tradeoff: early in training, the learner is able to explore various sparsity patterns, and as the soft top-k approximation is gradually sharpened over the course of training, the balance shifts towards parameter optimization with respect to a fixed sparsity mask. Spartan is sufficiently flexible to accommodate a variety of sparsity allocation policies, including both unstructured and block structured sparsity, as well as general cost-sensitive sparsity allocation mediated by linear models of per-parameter costs. On ImageNet-1K classification, Spartan yields 95% sparse ResNet-50 models and 90% block sparse ViT-B/16 models while incurring absolute top-1 accuracy losses of less than 1% compared to fully dense training.
Abstract（参考訳）: 本稿では,スパースニューラルネットワークモデルを所定の間隔でトレーニングする方法であるSpartanを提案する。スパルタンは,(1)正則化最適輸送問題による低次パラメータのソフトトップkマスキング,(2)前方通過におけるハードスパシフィケーションを伴う2つの平均パラメータ更新の2つの手法の組み合わせに基づいている。このスキームは, 早期に学習者が様々な空間パターンを探索し, 柔らかいトップk近似が訓練の過程で徐々に高度化されるにつれて, パラメータ最適化へのバランスシフトが固定された空間マスクに対して行われる。スパルタは、非構造とブロック構造の両方の空間配置ポリシーや、パラメータごとのコストの線形モデルによって仲介される一般的なコスト感受性の空間配置など、様々な空間配置ポリシーに対応するのに十分な柔軟性がある。 ImageNet-1K分類では、スパルタは95%のスパース ResNet-50 モデルと90%のブロックススパース ViT-B/16 モデルを生成し、完全密集トレーニングと比較して絶対的なトップ1精度の損失は1%未満である。

関連論文リスト

The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文参考訳（メタデータ） (2025-01-21T20:23:22Z)
SVFT: Parameter-Efficient Fine-Tuning with Singular Vectors [80.6043267994434]
既存の手法と根本的に異なる単純なアプローチであるSVFTを提案する。 SVFTは特異ベクトルの外積のスパース結合として(W)を更新し、これらのスパース結合の係数(スケール)のみを訓練する。言語とビジョンベンチマークの実験では、SVFTは完全な微調整性能の96%を回復し、パラメータの0.006から0.25%しかトレーニングしていない。
論文参考訳（メタデータ） (2024-05-30T01:27:43Z)
UniPTS: A Unified Framework for Proficient Post-Training Sparsity [67.16547529992928]
Post-Traiing Sparsity (PTS)は、必要な限られたデータで効率的なネットワークスパシティを追求する、新たに登場した道である。本稿では,従来のスパシティの性能をPSSの文脈に大きく変化させる3つの基本因子を変換することで,この相違を解消しようとする。我々のフレームワークはUniPTSと呼ばれ、広範囲のベンチマークで既存のPTSメソッドよりも優れていることが検証されている。
論文参考訳（メタデータ） (2024-05-29T06:53:18Z)
Sparse maximal update parameterization: A holistic approach to sparse training dynamics [2.9312403481608715]
疎密で高密度なネットワークが、同じ最適なHPを共有していないことを示す。安定したダイナミクスと効果的なトレーニングのレシピがなければ、大規模に分散性をテストするのにコストがかかります。 S$mu$Parは、アクティベーション、グラデーション、およびウェイト更新を全てのスケールが、スパーシティレベルとは無関係に保証する。
論文参考訳（メタデータ） (2024-05-24T17:39:26Z)
Sparse Spectral Training and Inference on Euclidean and Hyperbolic Neural Networks [9.96381061452642]
Low-Rank Adaptation (LoRA) と ReLoRA は低ランク構造で課題に直面している。予備学習におけるメモリ使用量の最適化を目的としたスパーススペクトルトレーニング(SST)を提案する。 SSTは、他の低ランクメソッドとフルランクトレーニングの間の難易度ギャップを97.4%削減する。
論文参考訳（メタデータ） (2024-05-24T11:59:41Z)
Fast and Controllable Post-training Sparsity: Learning Optimal Sparsity Allocation with Global Constraint in Minutes [33.68058313321142]
本稿では,ニューラルネットワークの疎度を制御可能な後訓練時疎度(FCPTS)フレームワークを提案する。提案手法は,グローバルなスパシティ率への収束の保証を付加して,短時間で迅速かつ正確なスパシティ割当学習を可能にする。
論文参考訳（メタデータ） (2024-05-09T14:47:15Z)
Scaling Laws for Sparsely-Connected Foundation Models [70.41266138010657]
大規模データセット上でトレーニングしたトランスフォーマーのスケーリング挙動に及ぼすパラメータ空間の影響について検討する。重み空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を同定する。
論文参考訳（メタデータ） (2023-09-15T16:29:27Z)
AUTOSPARSE: Towards Automated Sparse Training of Deep Neural Networks [2.6742343015805083]
本稿では,ニューラルネットワーク内に存在する空間の均一分布を探索するグラディエント・アナリング(GA)を提案する。 GAは、余剰を誘導する正規化を必要とせずに、余剰と正確性の間のエレガントなトレードオフを提供する。 GAと最新の学習可能なプルーニング手法を統合し、AutoSparseと呼ばれる自動スパーストレーニングアルゴリズムを作成する。
論文参考訳（メタデータ） (2023-04-14T06:19:07Z)
Unifying Synergies between Self-supervised Learning and Dynamic Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。 SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文参考訳（メタデータ） (2023-01-22T17:12:58Z)
Dynamic Sparse Training via Balancing the Exploration-Exploitation Trade-off [19.230329532065635]
スパーストレーニングは、モデルサイズを減らすことで、トレーニングコストを大幅に削減する可能性がある。既存のスパーストレーニング方法は、主にランダムベースまたはグリーディベースのドロップ・アンド・グロー戦略を使用する。本研究では,動的スパース学習をスパース接続探索問題として考察する。実験の結果,提案手法により得られたスパースモデル(最大98%のスパース)は,SOTAスパース訓練法より優れていた。
論文参考訳（メタデータ） (2022-11-30T01:22:25Z)
Sparsity Winning Twice: Better Robust Generalization from More Efficient Training [94.92954973680914]
スパース対位訓練の代替として, (i) スタティック・スパシティと (ii) ダイナミック・スパシティの2つを紹介した。いずれの方法も、ロバストな一般化ギャップを大幅に縮小し、ロバストなオーバーフィッティングを緩和する。我々のアプローチは既存の正規化器と組み合わせて、敵の訓練における新たな最先端の成果を確立することができる。
論文参考訳（メタデータ） (2022-02-20T15:52:08Z)
Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文参考訳（メタデータ） (2021-06-18T01:03:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。