論文の概要: A flexible, extensible software framework for model compression based on
the LC algorithm
- arxiv url: http://arxiv.org/abs/2005.07786v1
- Date: Fri, 15 May 2020 21:14:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 22:17:45.354531
- Title: A flexible, extensible software framework for model compression based on
the LC algorithm
- Title(参考訳): LCアルゴリズムに基づくモデル圧縮のための柔軟な拡張可能なソフトウェアフレームワーク
- Authors: Yerlan Idelbayev and Miguel \'A. Carreira-Perpi\~n\'an
- Abstract要約: ニューラルネットワークや他の機械学習モデルを最小限の労力で圧縮できるソフトウェアフレームワークを提案する。
ライブラリはPythonとPyTorchで書かれており、Githubで入手できる。
- 参考スコア(独自算出の注目度): 10.787390511207683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a software framework based on the ideas of the
Learning-Compression (LC) algorithm, that allows a user to compress a neural
network or other machine learning model using different compression schemes
with minimal effort. Currently, the supported compressions include pruning,
quantization, low-rank methods (including automatically learning the layer
ranks), and combinations of those, and the user can choose different
compression types for different parts of a neural network.
The LC algorithm alternates two types of steps until convergence: a learning
(L) step, which trains a model on a dataset (using an algorithm such as SGD);
and a compression (C) step, which compresses the model parameters (using a
compression scheme such as low-rank or quantization). This decoupling of the
"machine learning" aspect from the "signal compression" aspect means that
changing the model or the compression type amounts to calling the corresponding
subroutine in the L or C step, respectively. The library fully supports this by
design, which makes it flexible and extensible. This does not come at the
expense of performance: the runtime needed to compress a model is comparable to
that of training the model in the first place; and the compressed model is
competitive in terms of prediction accuracy and compression ratio with other
algorithms (which are often specialized for specific models or compression
schemes). The library is written in Python and PyTorch and available in Github.
- Abstract(参考訳): 本稿では,ニューラルネットワークや他の機械学習モデルを最小限の労力で圧縮できる学習圧縮(LC)アルゴリズムのアイデアに基づくソフトウェアフレームワークを提案する。
現在サポートされている圧縮には、プルーニング、量子化、低ランクメソッド(レイヤーランクの自動学習を含む)、それらの組み合わせが含まれており、ユーザーはニューラルネットワークのさまざまな部分に対して異なる圧縮タイプを選択することができる。
LCアルゴリズムは、データセット上のモデルを訓練する学習(L)ステップ(SGDのようなアルゴリズムを使用する)と、モデルパラメータを圧縮する圧縮(C)ステップ(低ランクや量子化のような圧縮スキームを使用する)の2つのステップを収束するまで交換する。
この「機械学習」側面と「信号圧縮」側面の分離は、モデルまたは圧縮タイプの変更が、それぞれlステップまたはcステップで対応するサブルーチンを呼び出すことに等しいことを意味する。
ライブラリはこれを完全に設計でサポートしており、柔軟性と拡張性がある。
モデル圧縮に必要なランタイムは、第一にモデルをトレーニングするランタイムに匹敵するものであり、圧縮されたモデルは、他のアルゴリズム(しばしば特定のモデルや圧縮スキームに特化している)と予測精度と圧縮比の点で競合する。
ライブラリはPythonとPyTorchで書かれており、Githubで入手できる。
関連論文リスト
- A Survey on Transformer Compression [84.18094368700379]
Transformerアーキテクチャに基づく大規模モデルは、人工知能においてますます重要な役割を担っている。
モデル圧縮法はメモリと計算コストを削減し、実用的なデバイス上でトランスフォーマーモデルを実装するために必要なステップである。
このサーベイは、最近の圧縮手法の包括的なレビューを提供し、トランスフォーマーモデルへの適用に特に焦点をあてている。
論文 参考訳(メタデータ) (2024-02-05T12:16:28Z) - Activations and Gradients Compression for Model-Parallel Training [91.12425544503395]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - How To Train Your (Compressed) Large Language Model [29.29267133266529]
大規模言語モデルのためのタスク非依存圧縮パイプラインを開発する。
以上の結果から, 単純なレイヤワイドプルーニングに続き, 継続する言語モデルによる事前学習が, 既存の3つの最先端ベースラインを上回り, 性能が向上することが示された。
典型的なタスク特化圧縮とは異なり、最も圧縮されたモデルは、スクラッチから訓練された同様のサイズのモデルよりも大幅に性能が劣る。
論文 参考訳(メタデータ) (2023-05-24T08:18:35Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z) - NAS-BERT: Task-Agnostic and Adaptive-Size BERT Compression with Neural
Architecture Search [100.71365025972258]
BERT圧縮の効率的な手法であるNAS-BERTを提案する。
NAS-BERTは、検索空間上で大きなスーパーネットをトレーニングし、適応的なサイズとレイテンシを持つ複数の圧縮モデルを出力する。
GLUEとSQuADベンチマークデータセットの実験は、NAS-BERTが以前のアプローチよりも高精度で軽量なモデルを見つけることができることを示した。
論文 参考訳(メタデータ) (2021-05-30T07:20:27Z) - PowerGossip: Practical Low-Rank Communication Compression in
Decentralized Deep Learning [62.440827696638664]
本稿では,近隣労働者間のモデル差を直接圧縮する簡単なアルゴリズムを提案する。
中央集権的なディープラーニングのためにPowerSGDにインスパイアされたこのアルゴリズムは、パワーステップを使用して、1ビットあたりの転送情報を最大化する。
論文 参考訳(メタデータ) (2020-08-04T09:14:52Z) - Self-Supervised GAN Compression [32.21713098893454]
従来の手法では,標準モデル圧縮手法であるウェイトプルーニングがGANに適用できないことを示す。
次に、訓練された判別器を用いて圧縮発電機の訓練を監督する自己教師圧縮手法を開発する。
我々は,このフレームワークが高い疎度に対して魅力的な性能を示し,新しいタスクやモデルに容易に適用できることを示し,異なるプルーニング粒度間の有意義な比較を可能にする。
論文 参考訳(メタデータ) (2020-07-03T04:18:54Z) - Neural Network Compression Framework for fast model inference [59.65531492759006]
我々は、ニューラルネットワーク圧縮フレームワーク(NNCF)と呼ばれる、微調整によるニューラルネットワーク圧縮のための新しいフレームワークを提案する。
様々なネットワーク圧縮手法の最近の進歩を活用し、空間性、量子化、双項化などのいくつかの実装を行っている。
フレームワークは、トレーニングサンプル内に提供され、あるいは既存のトレーニングコードにシームレスに統合可能なスタンドアロンパッケージとして使用することができる。
論文 参考訳(メタデータ) (2020-02-20T11:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。