Fugu-MT 論文翻訳(概要): CrAM: A Compression-Aware Minimizer

論文の概要: CrAM: A Compression-Aware Minimizer

arxiv url: http://arxiv.org/abs/2207.14200v4
Date: Thu, 4 May 2023 13:55:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-05 19:49:50.602587
Title: CrAM: A Compression-Aware Minimizer
Title（参考訳）: CrAM:圧縮認識最小化器
Authors: Alexandra Peste, Adrian Vladu, Eldar Kurtic, Christoph H. Lampert, Dan Alistarh
Abstract要約: 本稿では、CrAMと呼ばれる新しい圧縮対応最小化器を提案し、最適化ステップを原則的に修正する。 CrAMは、標準のSGD/アダムベースベースラインよりも精度が高い密度のモデルを生成するが、重量計算では安定である。 CrAMは、転送学習のためにうまく機能するスパースモデルを生成することができ、GPUハードウェアでサポートされている半構造化の2:4プルーニングパターンでも機能する。
参考スコア（独自算出の注目度）: 103.29159003723815
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep neural networks (DNNs) often have to be compressed, via pruning and/or quantization, before they can be deployed in practical settings. In this work we propose a new compression-aware minimizer dubbed CrAM that modifies the optimization step in a principled way, in order to produce models whose local loss behavior is stable under compression operations such as pruning. Thus, dense models trained via CrAM should be compressible post-training, in a single step, without significant accuracy loss. Experimental results on standard benchmarks, such as residual networks for ImageNet classification and BERT models for language modelling, show that CrAM produces dense models that can be more accurate than the standard SGD/Adam-based baselines, but which are stable under weight pruning: specifically, we can prune models in one-shot to 70-80% sparsity with almost no accuracy loss, and to 90% with reasonable ($\sim 1\%$) accuracy loss, which is competitive with gradual compression methods. Additionally, CrAM can produce sparse models which perform well for transfer learning, and it also works for semi-structured 2:4 pruning patterns supported by GPU hardware. The code for reproducing the results is available at https://github.com/IST-DASLab/CrAM .
Abstract（参考訳）: ディープニューラルネットワーク(DNN)は、実用的な設定でデプロイする前に、プルーニングや量子化を通じて圧縮されることが多い。本研究では,pruningなどの圧縮操作において局所的損失挙動が安定なモデルを生成するために,最適化ステップを原理的に修正する新しい圧縮認識最小化器 cramを提案する。したがって、CrAMを用いて訓練された高密度モデルは、単一のステップで圧縮可能であり、精度の低下は生じない。 imagenet分類のための残留ネットワークや言語モデリングのためのbertモデルといった標準ベンチマークの実験結果は、クローズが標準のsgd/adamベースのベースラインよりも正確であるが、重みのプラニングで安定な、密集したモデルを生成することを示している。さらにkullは、転送学習に適したスパースモデルを生成することができ、gpuハードウェアがサポートする半構造化2:4のプルーニングパターンでも動作する。結果を再現するためのコードはhttps://github.com/IST-DASLab/CrAM で公開されている。

関連論文リスト

SQS: Bayesian DNN Compression through Sparse Quantized Sub-distributions [18.749300190253624]
ベイズ変分学習(SQS)による同時プルーニングと低ビット量子化のための統合フレームワークを提案する。理論的には、スパースで量子化されたディープニューラルネットワークに対する我々の提案した変分アプローチの一貫性のある結果を提供する。
論文参考訳（メタデータ） (2025-10-10T04:54:29Z)
Smooth Model Compression without Fine-Tuning [14.381101636079872]
ニューラルネットワークのトレーニングとモデル圧縮に対するスムーズな正規化の影響について検討する。その結果,スムーズなモデルに適用した場合,標準的な刈り取り方式の方がよくなることがわかった。我々の手法は、微調整なしで最先端の圧縮を可能にする。
論文参考訳（メタデータ） (2025-05-30T11:13:48Z)
Choose Your Model Size: Any Compression by a Single Gradient Descent [9.074689052563878]
イテレーティブ・プルーニング(ACIP)による圧縮について紹介する。 ACIPは、単一の勾配降下ランから圧縮性能トレードオフを決定するアルゴリズム的なアプローチである。本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文参考訳（メタデータ） (2025-02-03T18:40:58Z)
Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文参考訳（メタデータ） (2024-01-15T15:54:54Z)
Gradient-Free Structured Pruning with Unlabeled Data [57.999191898036706]
ラベルのないデータのみを使用する勾配のない構造化プルーニングフレームワークを提案する。元々のFLOPカウントの最大40%は、考慮されたすべてのタスクで4%未満の精度で削減できる。
論文参考訳（メタデータ） (2023-03-07T19:12:31Z)
Deep learning model compression using network sensitivity and gradients [3.52359746858894]
非リトレーニング条件とリトレーニング条件の両方に対するモデル圧縮アルゴリズムを提案する。まず,ネットワークパラメータの感度を用いた深層学習モデルの圧縮のためのBin & Quantアルゴリズムを提案する。第2のケースでは、新しい勾配重み付きk平均クラスタリングアルゴリズム(GWK)を提案する。
論文参考訳（メタデータ） (2022-10-11T03:02:40Z)
Train Flat, Then Compress: Sharpness-Aware Minimization Learns More Compressible Models [7.6356407698088]
不要なパラメータを抽出することは、大きなモデルを圧縮するための単純で効果的な方法として現れている。平らな最小値の最適化は、標準Adamの最適化よりもパラメータの圧縮性が高いことを示す。
論文参考訳（メタデータ） (2022-05-25T11:54:37Z)
Structured Pruning is All You Need for Pruning CNNs at Initialization [38.88730369884401]
プルーニングは畳み込みニューラルネットワーク(CNN)のモデルサイズと計算コストを削減する一般的な手法であるハードウェア効率の良いモデル圧縮方式であるPreCroppingを提案する。重み付けと比較して, 提案手法は, 精度を犠牲にすることなく, 記憶と計算の両面において規則的で密度が高い。
論文参考訳（メタデータ） (2022-03-04T19:54:31Z)
Prune Once for All: Sparse Pre-Trained Language Models [0.6063525456640462]
そこで本研究では,ウェイトプルーニングとモデル蒸留を統合したスパース事前訓練型トランスフォーマー言語モデルの学習手法を提案する。これらのスパース事前学習モデルは、疎度パターンを維持しながら、幅広いタスクの学習を伝達するために使用することができる。圧縮されたスパース事前学習モデルが、その知識を、最小限の精度で5つの下流自然言語タスクに伝達する方法を示す。
論文参考訳（メタデータ） (2021-11-10T15:52:40Z)
Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文参考訳（メタデータ） (2021-06-18T01:03:13Z)
Single-path Bit Sharing for Automatic Loss-aware Model Compression [126.98903867768732]
シングルパスビット共有(SBS)は、計算コストを大幅に削減し、有望な性能を達成する。 SBS圧縮MobileNetV2は、Top-1の精度がわずか0.1%低下した22.6倍ビット演算(BOP)を実現する。
論文参考訳（メタデータ） (2021-01-13T08:28:21Z)
Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文参考訳（メタデータ） (2020-04-15T20:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。