論文の概要: Train Flat, Then Compress: Sharpness-Aware Minimization Learns More
Compressible Models
- arxiv url: http://arxiv.org/abs/2205.12694v1
- Date: Wed, 25 May 2022 11:54:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 00:05:07.653823
- Title: Train Flat, Then Compress: Sharpness-Aware Minimization Learns More
Compressible Models
- Title(参考訳): 電車のフラット化と圧縮:シャープネスを意識した最小化はより圧縮性のあるモデルを学ぶ
- Authors: Clara Na, Sanket Vaibhav Mehta, Emma Strubell
- Abstract要約: 不要なパラメータを抽出することは、大きなモデルを圧縮するための単純で効果的な方法として現れている。
平らな最小値の最適化は、標準Adamの最適化よりもパラメータの圧縮性が高いことを示す。
- 参考スコア(独自算出の注目度): 7.6356407698088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model compression by way of parameter pruning, quantization, or distillation
has recently gained popularity as an approach for reducing the computational
requirements of modern deep neural network models for NLP. Pruning unnecessary
parameters has emerged as a simple and effective method for compressing large
models that is compatible with a wide variety of contemporary off-the-shelf
hardware (unlike quantization), and that requires little additional training
(unlike distillation). Pruning approaches typically take a large, accurate
model as input, then attempt to discover a smaller subnetwork of that model
capable of achieving end-task accuracy comparable to the full model. Inspired
by previous work suggesting a connection between simpler, more generalizable
models and those that lie within flat basins in the loss landscape, we propose
to directly optimize for flat minima while performing task-specific pruning,
which we hypothesize should lead to simpler parameterizations and thus more
compressible models. In experiments combining sharpness-aware minimization with
both iterative magnitude pruning and structured pruning approaches, we show
that optimizing for flat minima consistently leads to greater compressibility
of parameters compared to standard Adam optimization when fine-tuning BERT
models, leading to higher rates of compression with little to no loss in
accuracy on the GLUE classification benchmark.
- Abstract(参考訳): パラメータのプルーニング、量子化、蒸留によるモデル圧縮は、NLPのための現代のディープニューラルネットワークモデルの計算要求を減らすアプローチとして最近人気を集めている。
不要なパラメータを抽出することは、様々な現代のオフザシェルフハードウェア(量子化とは無関係)と互換性があり、追加の訓練(蒸留とは無関係)を必要とする大規模なモデルを圧縮するための単純で効果的な方法として現れてきた。
プルーニングアプローチは通常、大きく正確なモデルを入力として取り、そのモデルの小さなサブネットワークを発見し、フルモデルに匹敵するエンドタスク精度を達成する。
従来の研究から、より単純でより一般化可能なモデルと、損失ランドスケープの平坦な盆地内に位置するモデルとの接続を示唆した上で、タスク固有のプルーニングを実行しながら、フラットなミニマに対して直接最適化することを提案する。
急激度認識最小化と反復等級プルーニングと構造化プルーニングの両手法を併用した実験では, GLUE分類ベンチマークの精度をほとんど損なうことなく圧縮率の向上が期待できる。
関連論文リスト
- Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think [53.2706196341054]
認識された非効率性は、これまで気付かれなかった推論パイプラインの欠陥によって引き起こされたことを示している。
タスク固有の損失を伴う単一ステップモデル上でエンドツーエンドの微調整を行い、他の拡散に基づく深さモデルや正規推定モデルよりも優れた決定論的モデルを得る。
論文 参考訳(メタデータ) (2024-09-17T16:58:52Z) - PELA: Learning Parameter-Efficient Models with Low-Rank Approximation [16.9278983497498]
そこで本研究では,中間学習段階を導入することにより,事前学習モデルのパラメータ効率を向上させる手法を提案する。
これにより、下流の微調整タスクにローランクモデルの直接的かつ効率的な利用が可能になる。
論文 参考訳(メタデータ) (2023-10-16T07:17:33Z) - Sparse Model Soups: A Recipe for Improved Pruning via Model Averaging [24.64264715041198]
Sparse Model Soups (SMS) は,各プルー・リトレインサイクルを前フェーズから平均モデルに開始することでスパースモデルをマージする新しい手法である。
SMSはスパース性を保ち、スパースネットワークの利点を悪用し、モジュール化され、完全に並列化可能であり、IMPのパフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2023-06-29T08:49:41Z) - Riemannian Low-Rank Model Compression for Federated Learning with
Over-the-Air Aggregation [2.741266294612776]
低ランクモデル圧縮は、機械学習モデルを訓練する際の計算負荷を減らすために広く使われている技法である。
既存の圧縮技術は、連合学習システムにおける効率の良いオーバー・ザ・エア(OTA)アグリゲーションには直接適用できない。
低ランク制約を緩和しないFLにおける低ランクモデル圧縮のための新しい多様体最適化法を提案する。
論文 参考訳(メタデータ) (2023-06-04T18:32:50Z) - Fine-grained Retrieval Prompt Tuning [149.9071858259279]
微粒な検索プロンプトチューニングは, サンプルプロンプトと特徴適応の観点から, きめの細かい検索タスクを実行するために, 凍結した事前学習モデルを操る。
学習可能なパラメータが少ないFRPTは、広く使われている3つの細粒度データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-29T04:10:04Z) - CrAM: A Compression-Aware Minimizer [103.29159003723815]
本稿では、CrAMと呼ばれる新しい圧縮対応最小化器を提案し、最適化ステップを原則的に修正する。
CrAMは、標準のSGD/アダムベースベースラインよりも精度が高い密度のモデルを生成するが、重量計算では安定である。
CrAMは、転送学習のためにうまく機能するスパースモデルを生成することができ、GPUハードウェアでサポートされている半構造化の2:4プルーニングパターンでも機能する。
論文 参考訳(メタデータ) (2022-07-28T16:13:28Z) - Structured Pruning Learns Compact and Accurate Models [28.54826400747667]
タスク固有の構造化プルーニング法CoFi(粗粒および細粒のプルーニング)を提案する。
CoFiは高度に並列化可能なワークを提供し、蒸留方法を精度とレイテンシの両方で一致させる。
GLUEおよびSQuADデータセットを用いた実験により、CoFiは10倍以上のスピードアップと小さな精度低下でモデルを生成することが示された。
論文 参考訳(メタデータ) (2022-04-01T13:09:56Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Compression of descriptor models for mobile applications [26.498907514590165]
深層ニューラルネットワークにおける計算コスト,モデルサイズ,マッチング精度のトレードオフを評価する。
我々は、深度的に分離可能な層を用いることで、学習重量の顕著な冗長性を観察する。
本稿では,標準的な畳み込みと奥行き分離可能な畳み込みを補間する手段を提供する,畳み込み-Depthwise-Pointwise(CDP)層を提案する。
論文 参考訳(メタデータ) (2020-01-09T17:00:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。