論文の概要: Exploring Weight Importance and Hessian Bias in Model Pruning
- arxiv url: http://arxiv.org/abs/2006.10903v1
- Date: Fri, 19 Jun 2020 00:15:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 03:39:42.336954
- Title: Exploring Weight Importance and Hessian Bias in Model Pruning
- Title(参考訳): モデルプランニングにおける重み付けとヘッセンバイアスの探索
- Authors: Mingchen Li, Yahya Sattar, Christos Thrampoulidis, Samet Oymak
- Abstract要約: 我々は,重要な自然概念に基づいて,刈り取りの原理的探索を行う。
線形モデルの場合、この重要度の概念は、よく知られたヘッセン式プルーニングアルゴリズムに接続するスケーリングによって得られる。
より小さくなったにもかかわらず重みがより重要になるような設定を特定し、その結果、マグニチュードベースプルーニングの破滅的な失敗に繋がる。
- 参考スコア(独自算出の注目度): 55.75546858514194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model pruning is an essential procedure for building compact and
computationally-efficient machine learning models. A key feature of a good
pruning algorithm is that it accurately quantifies the relative importance of
the model weights. While model pruning has a rich history, we still don't have
a full grasp of the pruning mechanics even for relatively simple problems
involving linear models or shallow neural nets. In this work, we provide a
principled exploration of pruning by building on a natural notion of
importance. For linear models, we show that this notion of importance is
captured by covariance scaling which connects to the well-known Hessian-based
pruning. We then derive asymptotic formulas that allow us to precisely compare
the performance of different pruning methods. For neural networks, we
demonstrate that the importance can be at odds with larger magnitudes and
proper initialization is critical for magnitude-based pruning. Specifically, we
identify settings in which weights become more important despite becoming
smaller, which in turn leads to a catastrophic failure of magnitude-based
pruning. Our results also elucidate that implicit regularization in the form of
Hessian structure has a catalytic role in identifying the important weights,
which dictate the pruning performance.
- Abstract(参考訳): モデルプルーニングは、コンパクトで計算効率の良い機械学習モデルを構築する上で不可欠な手順である。
優れたプルーニングアルゴリズムの重要な特徴は、モデル重みの相対的重要性を正確に定量化することである。
モデルプルーニングには豊富な歴史があるが、線形モデルや浅いニューラルネットを含む比較的単純な問題であっても、プルーニングの仕組みを十分に把握することはできない。
本研究は, 自然に重要となる概念を基盤として, 刈り取りの原理的探索を行う。
線形モデルの場合、この重要性の概念は、よく知られたヘッセン式プルーニングに接続する共分散スケーリングによって得られる。
次に、異なるプルーニング法の性能を正確に比較できる漸近式を導出する。
ニューラルネットワークの場合,大きめの精度で重要であり,適切な初期化が大きめのプルーニングに重要であることを示す。
具体的には,より小さくなっても重みがより重要になるような設定を特定することで,マグニチュードベースの刈り取りの壊滅的な失敗を招いた。
また, ヘシアン構造の暗黙の正則化は, プルーニング性能を左右する重要な重みを同定する触媒的役割を持つことが明らかとなった。
関連論文リスト
- Isomorphic Pruning for Vision Models [56.286064975443026]
構造化プルーニングは、冗長なサブ構造を取り除くことによって、ディープニューラルネットワークの計算オーバーヘッドを低減する。
Isomorphic Pruningは、ネットワークアーキテクチャの範囲で有効性を示すシンプルなアプローチである。
論文 参考訳(メタデータ) (2024-07-05T16:14:53Z) - Geometric Insights into Focal Loss: Reducing Curvature for Enhanced Model Calibration [1.642094639107215]
分類問題におけるモデルの信頼度は、便利なソフトマックス関数の出力ベクトルによって与えられることが多い。
この問題はモデルキャリブレーションと呼ばれ、広く研究されている。
本研究では, 焦点損失がモデルトレーニングにおける損失面の曲率を減少させることを示す。
論文 参考訳(メタデータ) (2024-05-01T10:53:54Z) - Quantifying lottery tickets under label noise: accuracy, calibration,
and complexity [6.232071870655069]
ディープニューラルネットワークのプルーニングは、機械学習の計算負担を軽減するために広く利用されている戦略である。
スパース二重降下法を用いて一意的に同定し,分類タスクに付随するプルーンドモデルを特徴付ける。
論文 参考訳(メタデータ) (2023-06-21T11:35:59Z) - PLATON: Pruning Large Transformer Models with Upper Confidence Bound of
Weight Importance [114.1541203743303]
本稿では,重要度推定の上位信頼度境界(UCB)による重要度スコアの不確かさを捉えるPLATONを提案する。
我々は、自然言語理解、質問応答、画像分類に関するトランスフォーマーモデルを用いて、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2022-06-25T05:38:39Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Neural Pruning via Growing Regularization [82.9322109208353]
プルーニングの2つの中心的な問題:プルーニングのスケジュールと重み付けの重要度だ。
具体的には, ペナルティ要因が増大するL2正規化変種を提案し, 精度が著しく向上することを示した。
提案アルゴリズムは,構造化プルーニングと非構造化プルーニングの両方において,大規模データセットとネットワークの実装が容易かつスケーラブルである。
論文 参考訳(メタデータ) (2020-12-16T20:16:28Z) - Provable Benefits of Overparameterization in Model Compression: From
Double Descent to Pruning Neural Networks [38.153825455980645]
最近の実証的な証拠は、オーバライゼーションの実践が大きなモデルのトレーニングに利益をもたらすだけでなく、軽量モデルの構築を支援することも示している。
本稿では,モデル刈り込みの高次元ツールセットを理論的に特徴付けることにより,これらの経験的発見に光を当てる。
もっとも情報に富む特徴の位置が分かっていても、我々は大きなモデルに適合し、刈り取るのがよい体制を解析的に特定する。
論文 参考訳(メタデータ) (2020-12-16T05:13:30Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。