論文の概要: Error Feedback Can Accurately Compress Preconditioners
- arxiv url: http://arxiv.org/abs/2306.06098v4
- Date: Sat, 9 Mar 2024 14:54:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 17:07:12.638760
- Title: Error Feedback Can Accurately Compress Preconditioners
- Title(参考訳): エラーフィードバックはプリコンディショナーを正確に圧縮できる
- Authors: Ionut-Vlad Modoranu, Aleksei Kalinov, Eldar Kurtic, Elias Frantar, Dan
Alistarh
- Abstract要約: ディープ・ネットワークの規模での損失に関する2次情報を活用することは、ディープ・ラーニングのための電流の性能を改善するための主要なアプローチの1つである。
しかし、GGT (Full-Matrix Adagrad) やM-FAC (Matrix-Free Approximate Curvature) のような、正確な完全行列プリコンディショニングのための既存のアプローチは、小規模モデルにも適用した場合に膨大なストレージコストを被る。
本稿では, コンバージェンスを損なうことなく, プリコンディショナーを最大2桁圧縮できる新しい, 効率的なエラーフィードバック手法により, この問題に対処する。
- 参考スコア(独自算出の注目度): 46.78453240839177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leveraging second-order information about the loss at the scale of deep
networks is one of the main lines of approach for improving the performance of
current optimizers for deep learning. Yet, existing approaches for accurate
full-matrix preconditioning, such as Full-Matrix Adagrad (GGT) or Matrix-Free
Approximate Curvature (M-FAC) suffer from massive storage costs when applied
even to small-scale models, as they must store a sliding window of gradients,
whose memory requirements are multiplicative in the model dimension. In this
paper, we address this issue via a novel and efficient error-feedback technique
that can be applied to compress preconditioners by up to two orders of
magnitude in practice, without loss of convergence. Specifically, our approach
compresses the gradient information via sparsification or low-rank compression
\emph{before} it is fed into the preconditioner, feeding the compression error
back into future iterations. Experiments on deep neural networks show that this
approach can compress full-matrix preconditioners to up to 99\% sparsity
without accuracy loss, effectively removing the memory overhead of full-matrix
preconditioners such as GGT and M-FAC. Our code is available at
\url{https://github.com/IST-DASLab/EFCP}.
- Abstract(参考訳): ディープネットワークのスケールにおける損失に関する2次情報を活用することは、ディープラーニングのための現在の最適化器のパフォーマンスを改善するための主要なアプローチの1つです。
しかし、フルマトリクスアダグラード (ggt) やマトリクスフリー近似曲率 (m-fac) のような、正確なフルマトリクスプリコンディショニングのための既存のアプローチは、モデル次元でメモリ要求が乗算されるような勾配のスライディングウィンドウを格納しなければならないため、小規模モデルでも大きなストレージコストがかかる。
本稿では, コンバージェンスを損なうことなく, 実用上最大2桁の圧縮プリコンディショナーに適用可能な, 新規かつ効率的なエラーフィードバック手法を用いてこの問題に対処する。
具体的には、スペーシフィケーションや低ランク圧縮 \emph{before} を用いて勾配情報をプレコンディショナーに入力し、圧縮誤差を将来の繰り返しにフィードバックする。
ディープニューラルネットワークの実験により、このアプローチは完全行列プレコンディショナーを精度損失なく99\%まで圧縮することができ、GGTやM-FACのような完全行列プレコンディショナーのメモリオーバーヘッドを効果的に除去できることが示された。
私たちのコードは \url{https://github.com/IST-DASLab/EFCP} で利用可能です。
関連論文リスト
- LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Memory-Efficient Vision Transformers: An Activation-Aware Mixed-Rank
Compression Strategy [5.699098817569033]
本稿では,ViTのパラメータ数を削減するために,異なる層の低ランクテンソル近似を用いたアクティベーション対応モデル圧縮手法を提案する。
提案手法は,ImageNetデータセットの精度を1%以下に抑えながら,DeiT-Bのパラメータ数を60%削減する。
これに加えて、提案した圧縮技術は、DeiT/ViTモデルを圧縮して、より小型のDeiT/ViTモデルとほぼ同じモデルサイズで、精度が最大1.8%向上する。
論文 参考訳(メタデータ) (2024-02-08T19:01:14Z) - Compression of Structured Data with Autoencoders: Provable Benefit of
Nonlinearities and Depth [83.15263499262824]
勾配勾配勾配は入力のスパース構造を完全に無視する解に収束することを示す。
浅層構造にデノナイジング関数を付加することにより,スパースデータの圧縮におけるガウス性能の改善方法を示す。
CIFAR-10 や MNIST などの画像データセットに対して,本研究の成果を検証した。
論文 参考訳(メタデータ) (2024-02-07T16:32:29Z) - Curvature-Informed SGD via General Purpose Lie-Group Preconditioners [6.760212042305871]
曲率情報を利用して勾配降下(SGD)を加速する新しい手法を提案する。
提案手法は,行列フリープレコンディショナーと低ランクプレコンディショナーの2つのプレコンディショナーを含む。
プレコンディショニングされたSGD(PSGD)は、ビジョン、NLP、RLタスクにおいてSoTAよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-07T03:18:00Z) - Retraining-free Model Quantization via One-Shot Weight-Coupling Learning [41.299675080384]
混合精度量子化(MPQ)は、層に不均一なビット幅を割り当てることで、モデルを効果的に圧縮することを提唱する。
MPQは典型的には、探索訓練された2段階のプロセスに編成される。
本稿では,混合精度モデル圧縮のためのワンショットトレーニング探索パラダイムを考案する。
論文 参考訳(メタデータ) (2024-01-03T05:26:57Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - COMET: A Novel Memory-Efficient Deep Learning Training Framework by
Using Error-Bounded Lossy Compression [8.080129426746288]
広範かつ深層ニューラルネットワーク(DNN)のトレーニングには、メモリなどの大量のストレージリソースが必要になる。
本稿では,メモリ効率のよいCNNトレーニングフレームワーク(COMET)を提案する。
我々のフレームワークは、ベースライントレーニングで最大13.5倍、最先端の圧縮ベースのフレームワークで1.8倍のトレーニングメモリ消費を大幅に削減できる。
論文 参考訳(メタデータ) (2021-11-18T07:43:45Z) - Large Scale Private Learning via Low-rank Reparametrization [77.38947817228656]
本稿では、大規模ニューラルネットワークに微分プライベートSGDを適用する際の課題を解決するために、再パラメータ化方式を提案する。
BERTモデルにディファレンシャルプライバシを適用し、4つの下流タスクで平均精度が8,3.9%に達するのはこれが初めてである。
論文 参考訳(メタデータ) (2021-06-17T10:14:43Z) - A Generic Network Compression Framework for Sequential Recommender
Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。
CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。
大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文 参考訳(メタデータ) (2020-04-21T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。