論文の概要: A Three-regime Model of Network Pruning
- arxiv url: http://arxiv.org/abs/2305.18383v1
- Date: Sun, 28 May 2023 08:09:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 21:51:52.429043
- Title: A Three-regime Model of Network Pruning
- Title(参考訳): ネットワーク・プルーニングの3段階モデル
- Authors: Yefan Zhou, Yaoqing Yang, Arin Chang, Michael W. Mahoney
- Abstract要約: 我々は、ニューラルネットワーク(NN)トレーニングのハイパーパラメータが刈り取り性能に与える影響をモデル化するために、温度のようなパラメータと負荷のようなパラメータを使用します。
プレプルーニングモデルにおける負荷様パラメータの値に依存すると、プレプルーニングモデルにおける温度様パラメータの値が増加するか、その後のプルーニング性能が向上または損なわれる可能性がある。
本モデルでは, 高温のダイコトモス効果は, ポストプランニングモデルにおいて, 異なるタイプの大域構造間の遷移と関係していることが明らかとなった。
- 参考スコア(独自算出の注目度): 47.92525418773768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has highlighted the complex influence training hyperparameters,
e.g., the number of training epochs, can have on the prunability of machine
learning models. Perhaps surprisingly, a systematic approach to predict
precisely how adjusting a specific hyperparameter will affect prunability
remains elusive. To address this gap, we introduce a phenomenological model
grounded in the statistical mechanics of learning. Our approach uses
temperature-like and load-like parameters to model the impact of neural network
(NN) training hyperparameters on pruning performance. A key empirical result we
identify is a sharp transition phenomenon: depending on the value of a
load-like parameter in the pruned model, increasing the value of a
temperature-like parameter in the pre-pruned model may either enhance or impair
subsequent pruning performance. Based on this transition, we build a
three-regime model by taxonomizing the global structure of the pruned NN loss
landscape. Our model reveals that the dichotomous effect of high temperature is
associated with transitions between distinct types of global structures in the
post-pruned model. Based on our results, we present three case-studies: 1)
determining whether to increase or decrease a hyperparameter for improved
pruning; 2) selecting the best model to prune from a family of models; and 3)
tuning the hyperparameter of the Sharpness Aware Minimization method for better
pruning performance.
- Abstract(参考訳): 最近の研究は、例えばトレーニングエポックの数など、複雑なインフルエンストレーニングハイパーパラメータが機械学習モデルの実行可能性に与える影響を強調している。
おそらく意外なことに、特定のハイパーパラメータの調整がprunabilityにどのように影響するかを正確に予測する体系的なアプローチは、いまだに解明されていない。
このギャップに対処するために,学習の統計力学に基づく現象論的モデルを導入する。
提案手法は,ニューラルネットワーク(NN)トレーニングハイパーパラメータが刈り取り性能に与える影響をモデル化するために,温度的パラメータと負荷的パラメータを用いる。
プレプルーニングモデルにおける負荷様パラメータの値に依存すると、プレプルーニングモデルにおける温度様パラメータの値が増加するか、その後のプルーニング性能が向上または損なわれる可能性がある。
この変遷に基づき,pruned nn 損失景観のグローバル構造を分類することにより,3次元の登録モデルを構築した。
本モデルでは, 高温のディコトミウス効果は, ポストプランンモデルにおける異なるタイプの大域構造間の遷移と関係していることを明らかにした。
結果から,ケーススタディを3つ提示した。
1) 刈取改善のための過度パラメータの増大又は減少の判定
2) モデル群からプルーンする最良のモデルを選択すること,及び
3) シャープネス認識最小化法のハイパーパラメータを調整し, 刈り取り性能を向上する。
関連論文リスト
- SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Epidemic Modeling using Hybrid of Time-varying SIRD, Particle Swarm
Optimization, and Deep Learning [6.363653898208231]
疫学モデルは、拡散パターンが静止している場合の流行をモデル化するのに最適である。
本研究では,疫病モデル,粒子群最適化,深層学習を含むハイブリッドモデルを開発した。
本研究は、米国、インド、英国という3カ国の影響を受けた3つの国について、そのモデルを評価する。
論文 参考訳(メタデータ) (2024-01-31T18:08:06Z) - Enhancing Dynamical System Modeling through Interpretable Machine
Learning Augmentations: A Case Study in Cathodic Electrophoretic Deposition [0.8796261172196743]
本稿では,物理システムのモデリング向上を目的とした包括的データ駆動フレームワークを提案する。
実証的応用として,電顕的電気泳動沈着(EPD)のモデル化を追求する。
論文 参考訳(メタデータ) (2024-01-16T14:58:21Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Understanding Parameter Sharing in Transformers [53.75988363281843]
トランスフォーマーに関するこれまでの研究は、異なるレイヤでパラメータを共有することに集中しており、モデルの深さを増大させることで、限られたパラメータを持つモデルの性能を向上させることができる。
このアプローチの成功は, モデル複雑性の増加により, ごく一部に過ぎず, 収束性の向上に大きく寄与することを示す。
8つの機械翻訳タスクの実験結果から,パラメータ共有モデルのモデル複雑性を半分に抑えて,我々のモデルが競合性能を達成することが示された。
論文 参考訳(メタデータ) (2023-06-15T10:48:59Z) - Forecasting the 2016-2017 Central Apennines Earthquake Sequence with a
Neural Point Process [0.0]
本研究では,短期地震活動予測にフレキシブル・ポイント・プロセス・モデルを適用することができるか検討する。
本研究では, 時間的ニューラルモデルを用いて, 震度閾値以上の地震を予測できることを示す。
論文 参考訳(メタデータ) (2023-01-24T12:15:12Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Provable Benefits of Overparameterization in Model Compression: From
Double Descent to Pruning Neural Networks [38.153825455980645]
最近の実証的な証拠は、オーバライゼーションの実践が大きなモデルのトレーニングに利益をもたらすだけでなく、軽量モデルの構築を支援することも示している。
本稿では,モデル刈り込みの高次元ツールセットを理論的に特徴付けることにより,これらの経験的発見に光を当てる。
もっとも情報に富む特徴の位置が分かっていても、我々は大きなモデルに適合し、刈り取るのがよい体制を解析的に特定する。
論文 参考訳(メタデータ) (2020-12-16T05:13:30Z) - Deep Neural Network in Cusp Catastrophe Model [0.0]
カタストロフィ理論はもともと、入力の小さな変化から突然の振る舞いの変化を示す力学系に提案されていた。
ここでは、生成パラメータを実際に解くことなく、カタストロフィモデルをトレーニングして、Cusp Machineモデルのダイナミクスを学習する方法を示す。
論文 参考訳(メタデータ) (2020-04-06T00:25:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。