論文の概要: Error Feedback Can Accurately Compress Preconditioners
- arxiv url: http://arxiv.org/abs/2306.06098v1
- Date: Fri, 9 Jun 2023 17:58:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 12:03:37.468700
- Title: Error Feedback Can Accurately Compress Preconditioners
- Title(参考訳): エラーフィードバックはプリコンディショナーを正確に圧縮できる
- Authors: Ionut-Vlad Modoranu, Aleksei Kalinov, Eldar Kurtic, Dan Alistarh
- Abstract要約: ディープ・ネットワークの規模で2階情報を活用することは、ディープ・ラーニングのための電流の性能を改善するための主要なアプローチの1つである。
GGT (Full-Matrix Adagrad) や Matrix-Free Approximate Curvature (M-FAC) のような既存の完全行列プリコンディショニングのアプローチでは、中規模モデルにも適用した場合、大量のストレージコストがかかる。
本手法は, コンバージェンスを損なうことなく, プリコンディショナーを最大2桁圧縮することができる。
- 参考スコア(独自算出の注目度): 22.342407163283372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leveraging second-order information at the scale of deep networks is one of
the main lines of approach for improving the performance of current optimizers
for deep learning. Yet, existing approaches for accurate full-matrix
preconditioning, such as Full-Matrix Adagrad (GGT) or Matrix-Free Approximate
Curvature (M-FAC) suffer from massive storage costs when applied even to
medium-scale models, as they must store a sliding window of gradients, whose
memory requirements are multiplicative in the model dimension. In this paper,
we address this issue via an efficient and simple-to-implement error-feedback
technique that can be applied to compress preconditioners by up to two orders
of magnitude in practice, without loss of convergence. Specifically, our
approach compresses the gradient information via sparsification or low-rank
compression \emph{before} it is fed into the preconditioner, feeding the
compression error back into future iterations. Extensive experiments on deep
neural networks for vision show that this approach can compress full-matrix
preconditioners by up to two orders of magnitude without impact on accuracy,
effectively removing the memory overhead of full-matrix preconditioning for
implementations of full-matrix Adagrad (GGT) and natural gradient (M-FAC). Our
code is available at https://github.com/IST-DASLab/EFCP.
- Abstract(参考訳): 深層ネットワークの規模で2次情報を活用することは、ディープラーニングのための現在の最適化器の性能を改善するための主要なアプローチの1つだ。
しかしながら、フルマトリクスアダグラード(ggt)やマトリクスフリー近似曲率(m-fac)のような、正確なフルマトリクスプリコンディショニングのための既存のアプローチは、中規模モデルにも適用される場合、モデル次元でメモリ要求が乗算されるような勾配のスライディングウィンドウを格納しなければならないため、膨大なストレージコストを被る。
本稿では, この問題を, 収束の損失なく, プリコンディショナーの最大2桁圧縮に適用可能な, 効率的かつ簡易に実装したエラーフィードバック手法を用いて解決する。
具体的には、スペーシフィケーションや低ランク圧縮 \emph{before} を用いて勾配情報をプレコンディショナーに入力し、圧縮誤差を将来の繰り返しにフィードバックする。
ビジョンのためのディープニューラルネットワークに関する広範な実験により、このアプローチは精度に影響を与えず、フルマトリックスプリコンディショナーを最大2桁圧縮し、フルマトリックスアダグラード(ggt)と自然勾配(m-fac)の実装のためのフルマトリックスプリコンディショニングのメモリオーバーヘッドを効果的に除去できることが示されている。
私たちのコードはhttps://github.com/IST-DASLab/EFCPで利用可能です。
関連論文リスト
- LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Memory-Efficient Vision Transformers: An Activation-Aware Mixed-Rank
Compression Strategy [5.699098817569033]
本稿では,ViTのパラメータ数を削減するために,異なる層の低ランクテンソル近似を用いたアクティベーション対応モデル圧縮手法を提案する。
提案手法は,ImageNetデータセットの精度を1%以下に抑えながら,DeiT-Bのパラメータ数を60%削減する。
これに加えて、提案した圧縮技術は、DeiT/ViTモデルを圧縮して、より小型のDeiT/ViTモデルとほぼ同じモデルサイズで、精度が最大1.8%向上する。
論文 参考訳(メタデータ) (2024-02-08T19:01:14Z) - Compression of Structured Data with Autoencoders: Provable Benefit of
Nonlinearities and Depth [83.15263499262824]
勾配勾配勾配は入力のスパース構造を完全に無視する解に収束することを示す。
浅層構造にデノナイジング関数を付加することにより,スパースデータの圧縮におけるガウス性能の改善方法を示す。
CIFAR-10 や MNIST などの画像データセットに対して,本研究の成果を検証した。
論文 参考訳(メタデータ) (2024-02-07T16:32:29Z) - Curvature-Informed SGD via General Purpose Lie-Group Preconditioners [6.760212042305871]
曲率情報を利用して勾配降下(SGD)を加速する新しい手法を提案する。
提案手法は,行列フリープレコンディショナーと低ランクプレコンディショナーの2つのプレコンディショナーを含む。
プレコンディショニングされたSGD(PSGD)は、ビジョン、NLP、RLタスクにおいてSoTAよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-07T03:18:00Z) - Retraining-free Model Quantization via One-Shot Weight-Coupling Learning [41.299675080384]
混合精度量子化(MPQ)は、層に不均一なビット幅を割り当てることで、モデルを効果的に圧縮することを提唱する。
MPQは典型的には、探索訓練された2段階のプロセスに編成される。
本稿では,混合精度モデル圧縮のためのワンショットトレーニング探索パラダイムを考案する。
論文 参考訳(メタデータ) (2024-01-03T05:26:57Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - COMET: A Novel Memory-Efficient Deep Learning Training Framework by
Using Error-Bounded Lossy Compression [8.080129426746288]
広範かつ深層ニューラルネットワーク(DNN)のトレーニングには、メモリなどの大量のストレージリソースが必要になる。
本稿では,メモリ効率のよいCNNトレーニングフレームワーク(COMET)を提案する。
我々のフレームワークは、ベースライントレーニングで最大13.5倍、最先端の圧縮ベースのフレームワークで1.8倍のトレーニングメモリ消費を大幅に削減できる。
論文 参考訳(メタデータ) (2021-11-18T07:43:45Z) - Large Scale Private Learning via Low-rank Reparametrization [77.38947817228656]
本稿では、大規模ニューラルネットワークに微分プライベートSGDを適用する際の課題を解決するために、再パラメータ化方式を提案する。
BERTモデルにディファレンシャルプライバシを適用し、4つの下流タスクで平均精度が8,3.9%に達するのはこれが初めてである。
論文 参考訳(メタデータ) (2021-06-17T10:14:43Z) - A Generic Network Compression Framework for Sequential Recommender
Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。
CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。
大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文 参考訳(メタデータ) (2020-04-21T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。