論文の概要: Sparse Model Soups: A Recipe for Improved Pruning via Model Averaging
- arxiv url: http://arxiv.org/abs/2306.16788v1
- Date: Thu, 29 Jun 2023 08:49:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 14:08:02.600786
- Title: Sparse Model Soups: A Recipe for Improved Pruning via Model Averaging
- Title(参考訳): Sparse Model Soups: モデル平均化によるプルニング改善のためのレシピ
- Authors: Max Zimmer, Christoph Spiegel, Sebastian Pokutta
- Abstract要約: Sparse Model Soups (SMS) は,各プルー・リトレインサイクルを前フェーズの平均モデルで開始することによりスパースモデルをマージする新しい手法である。
SMSはスパース性を維持し、モジュールで完全に並列化可能なネットワークの利点を生かし、IMPのパフォーマンスを大幅に改善する。
- 参考スコア(独自算出の注目度): 17.5320459412718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks can be significantly compressed by pruning, leading to sparse
models requiring considerably less storage and floating-point operations while
maintaining predictive performance. Model soups (Wortsman et al., 2022) improve
generalization and out-of-distribution performance by averaging the parameters
of multiple models into a single one without increased inference time. However,
identifying models in the same loss basin to leverage both sparsity and
parameter averaging is challenging, as averaging arbitrary sparse models
reduces the overall sparsity due to differing sparse connectivities. In this
work, we address these challenges by demonstrating that exploring a single
retraining phase of Iterative Magnitude Pruning (IMP) with varying
hyperparameter configurations, such as batch ordering or weight decay, produces
models that are suitable for averaging and share the same sparse connectivity
by design. Averaging these models significantly enhances generalization
performance compared to their individual components. Building on this idea, we
introduce Sparse Model Soups (SMS), a novel method for merging sparse models by
initiating each prune-retrain cycle with the averaged model of the previous
phase. SMS maintains sparsity, exploits sparse network benefits being modular
and fully parallelizable, and substantially improves IMP's performance.
Additionally, we demonstrate that SMS can be adapted to enhance the performance
of state-of-the-art pruning during training approaches.
- Abstract(参考訳): ニューラルネットワークはプルーニングによって著しく圧縮され、予測性能を維持しながら、ストレージと浮動小数点演算をかなり少なくする必要のあるスパースモデルとなる。
モデルスープ(wortsman et al., 2022)は、推論時間を増加させることなく、複数のモデルのパラメータを1つに平均することで、一般化と分散性能を向上させる。
しかし, 任意のスパースモデルの平均化は, 疎結合性の違いによる全体の疎度を減少させるため, 疎度とパラメータ平均化の両面を活用した同一損失盆地内のモデル同定は困難である。
本稿では,バッチ順序付けや重みの減衰といったハイパーパラメータ構成の異なる反復的マグニチュードプルーニング(imp)の単回再訓練フェーズを探索することで,平均化に適したモデルを作成し,設計により疎結合性を共有することを実証する。
これらのモデルを平均すると、個々のコンポーネントと比較して一般化性能が大幅に向上する。
このアイデアに基づいて,各プルー・リトレインサイクルを前フェーズの平均モデルで開始することによりスパースモデルをマージする新しい手法であるスパースモデルスープ(SMS)を導入する。
SMSはスパース性を維持し、モジュールで完全に並列化可能なネットワークの利点を生かし、IMPのパフォーマンスを大幅に改善する。
さらに,SMSは,トレーニングアプローチにおける最先端プルーニングの性能向上に有効であることを示す。
関連論文リスト
- WASH: Train your Ensemble with Communication-Efficient Weight Shuffling, then Average [21.029085451757368]
ウェイト平均化手法は、アンサンブルの一般化と単一モデルの推論速度のバランスをとることを目的としている。
WASHは,最新の画像分類精度を実現するために,平均化のためのモデルアンサンブルを学習するための新しい分散手法である。
論文 参考訳(メタデータ) (2024-05-27T09:02:57Z) - Vanishing Feature: Diagnosing Model Merging and Beyond [1.1510009152620668]
結合モデルによる伝搬中に入力誘起特徴が減少する「消滅特徴」現象を同定する。
既存の正規化戦略は、消滅する特徴問題を的確に標的にすることで強化できることを示す。
初期層機能の保存に重点を置いたPFM(Preserve-First Merging')戦略を提案する。
論文 参考訳(メタデータ) (2024-02-05T17:06:26Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - FedDIP: Federated Learning with Extreme Dynamic Pruning and Incremental
Regularization [5.182014186927254]
大規模Deep Neural Networks(DNN)の分散トレーニングと推論にFL(Federated Learning)が成功している。
我々は、(i)動的プルーニングとエラーフィードバックを組み合わせて冗長な情報交換を排除する新しいFLフレームワーク(Coined FedDIP)にコントリビュートする。
我々は、FedDIPの収束解析と総合的な性能について報告し、最先端手法との比較評価を行う。
論文 参考訳(メタデータ) (2023-09-13T08:51:19Z) - Improving Transferability of Adversarial Examples via Bayesian Attacks [84.90830931076901]
モデル入力にベイズ定式化を組み込むことにより,モデル入力とモデルパラメータの共分散を可能にする新しい拡張を導入する。
提案手法は,トランスファーベース攻撃に対する新たな最先端技術を実現し,ImageNetとCIFAR-10の平均成功率をそれぞれ19.14%,2.08%向上させる。
論文 参考訳(メタデータ) (2023-07-21T03:43:07Z) - Maintaining Stability and Plasticity for Predictive Churn Reduction [8.971668467496055]
我々は,累積モデル組合せ (AMC) という解を提案する。
AMCは一般的な手法であり、モデルやデータ特性に応じてそれぞれ独自の利点を持ついくつかの事例を提案する。
論文 参考訳(メタデータ) (2023-05-06T20:56:20Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z) - Normalizing Flows with Multi-Scale Autoregressive Priors [131.895570212956]
マルチスケール自己回帰前処理(mAR)を通した遅延空間におけるチャネルワイド依存性を導入する。
我々のmARは、分割結合フロー層(mAR-SCF)を持つモデルに先立って、複雑なマルチモーダルデータの依存関係をよりよく捉えます。
我々は,mAR-SCFにより画像生成品質が向上し,FIDとインセプションのスコアは最先端のフローベースモデルと比較して向上したことを示す。
論文 参考訳(メタデータ) (2020-04-08T09:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。