論文の概要: DynaQuant: Compressing Deep Learning Training Checkpoints via Dynamic
Quantization
- arxiv url: http://arxiv.org/abs/2306.11800v2
- Date: Sat, 2 Sep 2023 04:08:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 04:35:53.022685
- Title: DynaQuant: Compressing Deep Learning Training Checkpoints via Dynamic
Quantization
- Title(参考訳): DynaQuant: 動的量子化によるディープラーニングトレーニングチェックポイントの圧縮
- Authors: Amey Agrawal, Sameer Reddy, Satwik Bhattamishra, Venkata Prabhakara
Sarath Nookala, Vidushi Vashishth, Kexin Rong, Alexey Tumanov
- Abstract要約: 最先端のアプローチには、モデル品質(精度)と圧縮比のトレードオフを引き起こす、損失のあるモデル圧縮機構が含まれる。
モデル重みの圧縮に対する感度がトレーニング中に変化し、異なる重みが異なる量子化レベルから恩恵を受けることを重要視する。
本稿では,非一様量子化,最適な量子化構成を動的に見つける効率的な探索機構,および量子化対応デルタ圧縮機構を提案する。
- 参考スコア(独自算出の注目度): 5.931507399723096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increase in the scale of Deep Learning (DL) training workloads in
terms of compute resources and time consumption, the likelihood of encountering
in-training failures rises substantially, leading to lost work and resource
wastage. Such failures are typically offset by a checkpointing mechanism, which
comes at the cost of storage and network bandwidth overhead. State-of-the-art
approaches involve lossy model compression mechanisms, which induce a tradeoff
between the resulting model quality (accuracy) and compression ratio. Delta
compression is then used to further reduce the overhead by only storing the
difference between consecutive checkpoints. We make a key enabling observation
that the sensitivity of model weights to compression varies during training,
and different weights benefit from different quantization levels (ranging from
retaining full precision to pruning). We propose (1) a non-uniform quantization
scheme that leverages this variation, (2) an efficient search mechanism that
dynamically finds the best quantization configurations, and (3) a
quantization-aware delta compression mechanism that rearranges weights to
minimize checkpoint differences, thereby maximizing compression. We instantiate
these contributions in DynaQuant - a framework for DL workload checkpoint
compression. Our experiments show that DynaQuant consistently achieves a better
tradeoff between accuracy and compression ratios compared to prior works,
enabling a compression ratio up to 39x and withstanding up to 10 restores with
negligible accuracy impact for fault-tolerant training. DynaQuant achieves at
least an order of magnitude reduction in checkpoint storage overhead for
training failure recovery as well as transfer learning use cases without any
loss of accuracy.
- Abstract(参考訳): 計算リソースと時間消費の観点からのディープラーニング(DL)トレーニングワークロードの規模の増加に伴い、トレーニング中の障害に遭遇する可能性が大幅に増加し、作業とリソースの浪費が失われる。
このような障害は通常、ストレージとネットワーク帯域のオーバーヘッドのコストがかかるチェックポイント機構によってオフセットされる。
最先端のアプローチには、モデル品質(正確性)と圧縮比のトレードオフを引き起こす、損失のあるモデル圧縮機構が含まれる。
デルタ圧縮は、連続するチェックポイント間の差だけを格納することで、オーバーヘッドをさらに削減するために使用される。
モデル重みの圧縮に対する感度はトレーニング中に変化し,異なる重みは異なる量子化レベル(完全精度保持から刈り取りまで)の恩恵を受ける,という観察を可能にするキーとなる。
本研究では,(1)この変動を利用した非一様量子化手法,(2)最適な量子化構成を動的に見つける効率的な探索機構,(3)重みを並べ替えてチェックポイント差を最小化し,圧縮を最大化する量子化対応デルタ圧縮機構を提案する。
DLワークロードチェックポイント圧縮のためのフレームワークであるDynaQuantで、これらのコントリビューションをインスタンス化する。
実験の結果,DynaQuantは従来よりも精度と圧縮率のトレードオフを良好に達成し,最大39倍の圧縮比を達成し,耐故障性トレーニングに適さない精度で最大10個の復元を行うことができた。
dynaquantは、トレーニング障害回復のためのチェックポイントストレージオーバーヘッドの少なくとも1桁の削減と、精度を損なうことなく転送学習ユースケースを実現する。
関連論文リスト
- LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning [63.43972993473501]
視覚変換器(ViT)の訓練と推論を高速化するトークン圧縮
しかし、下流タスクに適用した場合、圧縮度はトレーニングと推論の段階で不一致となる。
本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T10:36:43Z) - Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - Retraining-free Model Quantization via One-Shot Weight-Coupling Learning [41.299675080384]
混合精度量子化(MPQ)は、層に不均一なビット幅を割り当てることで、モデルを効果的に圧縮することを提唱する。
MPQは典型的には、探索訓練された2段階のプロセスに編成される。
本稿では,混合精度モデル圧縮のためのワンショットトレーニング探索パラダイムを考案する。
論文 参考訳(メタデータ) (2024-01-03T05:26:57Z) - Quick Dense Retrievers Consume KALE: Post Training Kullback Leibler
Alignment of Embeddings for Asymmetrical dual encoders [89.29256833403169]
我々は,高密度検索手法の推論効率を高めるための効率的かつ正確な手法であるKulback Leibler Alignment of Embeddings (KALE)を紹介した。
KALEは、バイエンコーダトレーニング後の従来の知識蒸留を拡張し、完全なリトレーニングやインデックス生成なしに効率的なクエリエンコーダ圧縮を可能にする。
KALEと非対称トレーニングを用いることで、3倍高速な推論を持つにもかかわらず、DistilBERTの性能を超えるモデルを生成することができる。
論文 参考訳(メタデータ) (2023-03-31T15:44:13Z) - Sign Bit is Enough: A Learning Synchronization Framework for Multi-hop
All-reduce with Ultimate Compression [17.692238652162203]
我々は,符号ビット圧縮に基づく学習同期フレームワークMarsitを実装した。
最大35%のトレーニング時間を短縮し、圧縮なしでトレーニングと同じ精度を維持する。
論文 参考訳(メタデータ) (2022-04-14T06:54:32Z) - Optimal Rate Adaption in Federated Learning with Compressed
Communications [28.16239232265479]
フェデレートラーニングは高い通信オーバーヘッドを引き起こし、モデル更新の圧縮によって大幅に軽減される。
ネットワーク環境における 圧縮とモデルの精度のトレードオフは 未だ不明です
各繰り返しの圧縮を戦略的に調整することで最終モデルの精度を最大化する枠組みを提案する。
論文 参考訳(メタデータ) (2021-12-13T14:26:15Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - Reliable Model Compression via Label-Preservation-Aware Loss Functions [14.368823297066276]
本稿では,教師の学習パラダイムを用いてラベルの保存を改善するフレームワークを提案する。
圧縮モデルと参照モデルとのミスマッチ数を最大4.1倍に削減する。
論文 参考訳(メタデータ) (2020-12-03T00:00:41Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。