論文の概要: Sparse Model Soups: A Recipe for Improved Pruning via Model Averaging
- arxiv url: http://arxiv.org/abs/2306.16788v3
- Date: Sat, 23 Mar 2024 07:05:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 03:38:04.891941
- Title: Sparse Model Soups: A Recipe for Improved Pruning via Model Averaging
- Title(参考訳): Sparse Model Soups: モデル平均化によるプルニング改善のためのレシピ
- Authors: Max Zimmer, Christoph Spiegel, Sebastian Pokutta,
- Abstract要約: Sparse Model Soups (SMS) は,各プルー・リトレインサイクルを前フェーズから平均モデルに開始することでスパースモデルをマージする新しい手法である。
SMSはスパース性を保ち、スパースネットワークの利点を悪用し、モジュール化され、完全に並列化可能であり、IMPのパフォーマンスを大幅に改善する。
- 参考スコア(独自算出の注目度): 24.64264715041198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks can be significantly compressed by pruning, yielding sparse models with reduced storage and computational demands while preserving predictive performance. Model soups (Wortsman et al., 2022) enhance generalization and out-of-distribution (OOD) performance by averaging the parameters of multiple models into a single one, without increasing inference time. However, achieving both sparsity and parameter averaging is challenging as averaging arbitrary sparse models reduces the overall sparsity due to differing sparse connectivities. This work addresses these challenges by demonstrating that exploring a single retraining phase of Iterative Magnitude Pruning (IMP) with varied hyperparameter configurations such as batch ordering or weight decay yields models suitable for averaging, sharing identical sparse connectivity by design. Averaging these models significantly enhances generalization and OOD performance over their individual counterparts. Building on this, we introduce Sparse Model Soups (SMS), a novel method for merging sparse models by initiating each prune-retrain cycle with the averaged model from the previous phase. SMS preserves sparsity, exploits sparse network benefits, is modular and fully parallelizable, and substantially improves IMP's performance. We further demonstrate that SMS can be adapted to enhance state-of-the-art pruning-during-training approaches.
- Abstract(参考訳): ニューラルネットワークはプルーニングによって著しく圧縮され、予測性能を維持しながら、ストレージと計算要求を低減したスパースモデルが得られる。
モデルスープ(Wortsman et al , 2022)は、複数のモデルのパラメータを1つに平均化することで一般化とアウト・オブ・ディストリビューション(OOD)性能を向上させる。
しかし、任意のスパースモデルの平均化がスパース接続性の違いによる全体の疎度を減少させるため、スパース率とパラメータ平均化の両立は困難である。
この研究は、バッチ順序やウェイト崩壊といった様々なハイパーパラメータ構成を持つ反復的マグニチュード・プルーニング(IMP)の単一再トレーニングフェーズを探索することで、平均化に適したモデルが得られ、設計によって同一のスパース接続が共有されることを示すことで、これらの課題に対処する。
これらのモデルの平均化は、個々のモデルよりも一般化とOODパフォーマンスを大幅に向上させる。
これに基づいて,各プルー・リトレインサイクルを前フェーズから平均モデルに開始することでスパースモデルをマージする新しい手法であるスパース・モデル・スープ(SMS)を導入する。
SMSはスパース性を保ち、スパースネットワークの利点を悪用し、モジュール化され、完全に並列化可能であり、IMPのパフォーマンスを大幅に改善する。
さらに、SMSが最先端のプルーニング・ディチューリング・トレーニング・アプローチに適応できることを実証する。
関連論文リスト
- Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
適応スパーストレーナー(AST)と呼ばれるリトレーニングによる半構造化スパースモデルのプルーニングパイプラインを提案する。
ASTは、モデルがトレーニングプロセスを通して適応的にマスクを選択することを可能にし、マスキング重みに減衰を施すことにより、密度の高いモデルをスパースモデルに変換する。
本研究は,半構造化されたスパース言語モデルの実現可能性を示し,高度に圧縮されたモデルを実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-30T06:33:44Z) - Bayesian vs. PAC-Bayesian Deep Neural Network Ensembles [7.883369697332076]
ベイズアンサンブルのサンプリングや重み付けは,特に一般化性能の向上には適していない。
文献から得られた最先端のベイズアンサンブルは、計算的に要求されているにもかかわらず、単純な一様重み付きディープアンサンブルよりも改善されていないことを示す。
論文 参考訳(メタデータ) (2024-06-08T13:19:18Z) - WASH: Train your Ensemble with Communication-Efficient Weight Shuffling, then Average [21.029085451757368]
ウェイト平均化手法は、アンサンブルの一般化と単一モデルの推論速度のバランスをとることを目的としている。
WASHは,最新の画像分類精度を実現するために,平均化のためのモデルアンサンブルを学習するための新しい分散手法である。
論文 参考訳(メタデータ) (2024-05-27T09:02:57Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - Improving Transferability of Adversarial Examples via Bayesian Attacks [84.90830931076901]
モデル入力にベイズ定式化を組み込むことにより,モデル入力とモデルパラメータの共分散を可能にする新しい拡張を導入する。
提案手法は,トランスファーベース攻撃に対する新たな最先端技術を実現し,ImageNetとCIFAR-10の平均成功率をそれぞれ19.14%,2.08%向上させる。
論文 参考訳(メタデータ) (2023-07-21T03:43:07Z) - Maintaining Stability and Plasticity for Predictive Churn Reduction [8.971668467496055]
我々は,累積モデル組合せ (AMC) という解を提案する。
AMCは一般的な手法であり、モデルやデータ特性に応じてそれぞれ独自の利点を持ついくつかの事例を提案する。
論文 参考訳(メタデータ) (2023-05-06T20:56:20Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z) - Normalizing Flows with Multi-Scale Autoregressive Priors [131.895570212956]
マルチスケール自己回帰前処理(mAR)を通した遅延空間におけるチャネルワイド依存性を導入する。
我々のmARは、分割結合フロー層(mAR-SCF)を持つモデルに先立って、複雑なマルチモーダルデータの依存関係をよりよく捉えます。
我々は,mAR-SCFにより画像生成品質が向上し,FIDとインセプションのスコアは最先端のフローベースモデルと比較して向上したことを示す。
論文 参考訳(メタデータ) (2020-04-08T09:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。