論文の概要: Structural Dropout for Model Width Compression
- arxiv url: http://arxiv.org/abs/2205.06906v1
- Date: Fri, 13 May 2022 21:50:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-19 08:25:56.096328
- Title: Structural Dropout for Model Width Compression
- Title(参考訳): モデル幅圧縮のための構造ドロップアウト
- Authors: Julian Knodt
- Abstract要約: 既存のMLモデルは高度に過度にパラメータ化され、与えられたタスクに必要なリソースよりもはるかに多くのリソースを使用することが知られている。
本稿では,オリジナルのモデルと圧縮モデルのセットに対して,1つのトレーニングセッションのみを必要とする手法を提案する。
提案したアプローチは"構造的"なドロップアウトであり、ランダムに選択されたインデックスの上に隠された状態のすべての要素をプルークし、モデルにその特徴に対する重要な順序を学習させる。
- 参考スコア(独自算出の注目度): 1.52292571922932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing ML models are known to be highly over-parametrized, and use
significantly more resources than required for a given task. Prior work has
explored compressing models offline, such as by distilling knowledge from
larger models into much smaller ones. This is effective for compression, but
does not give an empirical method for measuring how much the model can be
compressed, and requires additional training for each compressed model. We
propose a method that requires only a single training session for the original
model and a set of compressed models. The proposed approach is a "structural"
dropout that prunes all elements in the hidden state above a randomly chosen
index, forcing the model to learn an importance ordering over its features.
After learning this ordering, at inference time unimportant features can be
pruned while retaining most accuracy, reducing parameter size significantly. In
this work, we focus on Structural Dropout for fully-connected layers, but the
concept can be applied to any kind of layer with unordered features, such as
convolutional or attention layers. Structural Dropout requires no additional
pruning/retraining, but requires additional validation for each possible hidden
sizes. At inference time, a non-expert can select a memory versus accuracy
trade-off that best suits their needs, across a wide range of highly compressed
versus more accurate models.
- Abstract(参考訳): 既存のmlモデルは非常に過度にパラメータ化されており、所定のタスクに必要なリソースをはるかに多く使用しています。
以前の研究では、より大きなモデルからの知識をもっと小さなモデルに蒸留するなど、モデルをオフラインで圧縮することを検討した。
これは圧縮に有効であるが、モデルが圧縮できる量を測定するための経験的な方法を提供しておらず、圧縮されたモデルごとに追加のトレーニングを必要とする。
本稿では,オリジナルモデルと圧縮モデルのセットに対して,単一のトレーニングセッションのみを必要とする手法を提案する。
提案したアプローチは"構造的"なドロップアウトであり、ランダムに選択されたインデックスの上に隠された状態のすべての要素をプルークし、モデルにその特徴に対する重要な順序を学習させる。
この順序を学習した後、最も精度を保ちながら、推定時に重要でない特徴を刈り取ることができ、パラメータサイズを大幅に削減できる。
本研究では,完全連結層の構造的ドロップアウトに焦点をあてるが,概念は畳み込み層や注意層などの無秩序な特徴を持つ任意の層に適用できる。
構造的なドロップアウトは追加のpruning/retrainingを必要としないが、隠れたサイズごとに追加の検証が必要になる。
推論時に、非専門家は、要求に最も適したメモリ対精度のトレードオフを、高度に圧縮されたモデルとより正確なモデルで選択することができる。
関連論文リスト
- Activations and Gradients Compression for Model-Parallel Training [91.12425544503395]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - How To Train Your (Compressed) Large Language Model [29.29267133266529]
大規模言語モデルのためのタスク非依存圧縮パイプラインを開発する。
以上の結果から, 単純なレイヤワイドプルーニングに続き, 継続する言語モデルによる事前学習が, 既存の3つの最先端ベースラインを上回り, 性能が向上することが示された。
典型的なタスク特化圧縮とは異なり、最も圧縮されたモデルは、スクラッチから訓練された同様のサイズのモデルよりも大幅に性能が劣る。
論文 参考訳(メタデータ) (2023-05-24T08:18:35Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z) - Deep learning model compression using network sensitivity and gradients [3.52359746858894]
非リトレーニング条件とリトレーニング条件の両方に対するモデル圧縮アルゴリズムを提案する。
まず,ネットワークパラメータの感度を用いた深層学習モデルの圧縮のためのBin & Quantアルゴリズムを提案する。
第2のケースでは、新しい勾配重み付きk平均クラスタリングアルゴリズム(GWK)を提案する。
論文 参考訳(メタデータ) (2022-10-11T03:02:40Z) - Train Flat, Then Compress: Sharpness-Aware Minimization Learns More
Compressible Models [7.6356407698088]
不要なパラメータを抽出することは、大きなモデルを圧縮するための単純で効果的な方法として現れている。
平らな最小値の最適化は、標準Adamの最適化よりもパラメータの圧縮性が高いことを示す。
論文 参考訳(メタデータ) (2022-05-25T11:54:37Z) - Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。
提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文 参考訳(メタデータ) (2021-08-26T04:42:24Z) - NAS-BERT: Task-Agnostic and Adaptive-Size BERT Compression with Neural
Architecture Search [100.71365025972258]
BERT圧縮の効率的な手法であるNAS-BERTを提案する。
NAS-BERTは、検索空間上で大きなスーパーネットをトレーニングし、適応的なサイズとレイテンシを持つ複数の圧縮モデルを出力する。
GLUEとSQuADベンチマークデータセットの実験は、NAS-BERTが以前のアプローチよりも高精度で軽量なモデルを見つけることができることを示した。
論文 参考訳(メタデータ) (2021-05-30T07:20:27Z) - Sparsification via Compressed Sensing for Automatic Speech Recognition [0.0]
大規模機械学習アプリケーションはモデル量子化と圧縮を必要とする。
本稿では,これらの問題に効果的に対応するために,圧縮センシングベースプルーニング(CSP)手法を提案する。
CSPは文学における既存のアプローチよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2021-02-09T16:41:31Z) - Know What You Don't Need: Single-Shot Meta-Pruning for Attention Heads [114.77890059625162]
微調整前に深部学習前変換器を圧縮する単一ショットメタプランニング法を提案する。
下流の様々なタスクに適応的に不必要な注意を向けることに注力する。
事前学習したモデルに対する既存の圧縮手法と比較して、微調整と推論の両方のオーバーヘッドを低減することができる。
論文 参考訳(メタデータ) (2020-11-07T12:58:37Z) - Self-Supervised GAN Compression [32.21713098893454]
従来の手法では,標準モデル圧縮手法であるウェイトプルーニングがGANに適用できないことを示す。
次に、訓練された判別器を用いて圧縮発電機の訓練を監督する自己教師圧縮手法を開発する。
我々は,このフレームワークが高い疎度に対して魅力的な性能を示し,新しいタスクやモデルに容易に適用できることを示し,異なるプルーニング粒度間の有意義な比較を可能にする。
論文 参考訳(メタデータ) (2020-07-03T04:18:54Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。