論文の概要: NeuZip: Memory-Efficient Training and Inference with Dynamic Compression of Neural Networks
- arxiv url: http://arxiv.org/abs/2410.20650v1
- Date: Mon, 28 Oct 2024 01:12:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:19:39.844689
- Title: NeuZip: Memory-Efficient Training and Inference with Dynamic Compression of Neural Networks
- Title(参考訳): NeuZip: ニューラルネットワークの動的圧縮によるメモリ効率の高いトレーニングと推論
- Authors: Yongchang Hao, Yanshuai Cao, Lili Mou,
- Abstract要約: NeuZipはニューラルネットワークにおける浮動小数点数のエントロピーに基づく新しい重み圧縮方式である。
Llama-3 8Bモデルのメモリフットプリントを31GBから16GB以下に大幅に削減した。
推定では, ほぼロスレス性能を維持しながら, メモリ使用量を半減することができる。
- 参考スコア(独自算出の注目度): 30.224822087562163
- License:
- Abstract: The performance of neural networks improves when more parameters are used. However, the model sizes are constrained by the available on-device memory during training and inference. Although applying techniques like quantization can alleviate the constraint, they suffer from performance degradation. In this work, we introduce NeuZip, a new weight compression scheme based on the entropy of floating-point numbers in neural networks. With NeuZip, we are able to achieve memory-efficient training and inference without sacrificing performance. Notably, we significantly reduce the memory footprint of training a Llama-3 8B model from 31GB to less than 16GB, while keeping the training dynamics fully unchanged. In inference, our method can reduce memory usage by more than half while maintaining near-lossless performance. Our code is publicly available.
- Abstract(参考訳): ニューラルネットワークの性能は、より多くのパラメータを使用するときに向上する。
しかし、モデルサイズは、トレーニングと推論中に利用可能なオンデバイスメモリによって制約される。
量子化のようなテクニックを適用することで制約が緩和されるが、パフォーマンス劣化に悩まされる。
本稿ではニューラルネットワークにおける浮動小数点数のエントロピーに基づく新しい重み圧縮方式であるNeuZipを紹介する。
NeuZipを使えば、パフォーマンスを犠牲にすることなく、メモリ効率のよいトレーニングと推論を実現できます。
特に、Llama-3 8Bモデルのトレーニングのメモリフットプリントを31GBから16GB以下に大幅に削減し、トレーニングのダイナミクスを完全に変更する。
推定では, ほぼロスレス性能を維持しながら, メモリ使用量を半減することができる。
私たちのコードは公開されています。
関連論文リスト
- CompAct: Compressed Activations for Memory-Efficient LLM Training [7.837209773889032]
CompActはGPU上でのピークメモリ利用を事前トレーニングで25~30%削減し、LLMの微調整で50%削減する技術である。
低ランクで圧縮されたアクティベーションを後方パスに格納することで、必要なメモリを大幅に削減する。
CompActの貯蓄は、より大きなモデルに対してさらに高いスケールを期待しています。
論文 参考訳(メタデータ) (2024-10-20T10:24:38Z) - OLLA: Decreasing the Memory Usage of Neural Networks by Optimizing the
Lifetime and Location of Arrays [6.418232942455968]
OLLAは、ニューラルネットワークのトレーニングに使用されるテンソルの寿命とメモリ位置を最適化するアルゴリズムである。
問題のエンコーディングを単純化し、最先端のニューラルネットワークのサイズにスケールするためのアプローチを可能にするために、いくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-10-24T02:39:13Z) - DIVISION: Memory Efficient Training via Dual Activation Precision [60.153754740511864]
最先端の研究は、量子化ビット幅の探索とトレーニングを組み合わせることで、手順を複雑にし、透明性を損なう。
そこで本研究では,DNNトレーニングを簡易かつ効果的に圧縮する手法を提案する。
実験結果によると、DIVISIONは10倍以上のアクティベーションマップの圧縮や、モデルの精度を損なうことなく、競争訓練のスループットなど、最先端の手法よりも総合的な性能を示している。
論文 参考訳(メタデータ) (2022-08-05T03:15:28Z) - On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - Memory Replay with Data Compression for Continual Learning [80.95444077825852]
古いトレーニングサンプルの記憶コストを低減するため,データ圧縮によるメモリリプレイを提案する。
我々はこれを、クラスインクリメンタル学習のいくつかのベンチマークと、自律運転のためのオブジェクト検出の現実的なシナリオにおいて、広範囲に検証する。
論文 参考訳(メタデータ) (2022-02-14T10:26:23Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - COMET: A Novel Memory-Efficient Deep Learning Training Framework by
Using Error-Bounded Lossy Compression [8.080129426746288]
広範かつ深層ニューラルネットワーク(DNN)のトレーニングには、メモリなどの大量のストレージリソースが必要になる。
本稿では,メモリ効率のよいCNNトレーニングフレームワーク(COMET)を提案する。
我々のフレームワークは、ベースライントレーニングで最大13.5倍、最先端の圧縮ベースのフレームワークで1.8倍のトレーニングメモリ消費を大幅に削減できる。
論文 参考訳(メタデータ) (2021-11-18T07:43:45Z) - BitTrain: Sparse Bitmap Compression for Memory-Efficient Training on the
Edge [2.2191297646252646]
Edgeのトレーニングにより、メモリ制限されたエッジデバイスにデプロイした後に、ニューラルネットワークが新たなデータから継続的に学習できるようになる。
既存のインクリメンタルなトレーニング手法は、モデル全体をトレーニングすることで、精度を犠牲にし、最後の数層を微調整する。
BitTrainでは、アクティベーションの空間性を利用して、トレーニング中のメモリフットプリントを削減する新しいビットマップ圧縮手法を提案する。
論文 参考訳(メタデータ) (2021-10-29T16:30:57Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z) - Neural Network Compression Framework for fast model inference [59.65531492759006]
我々は、ニューラルネットワーク圧縮フレームワーク(NNCF)と呼ばれる、微調整によるニューラルネットワーク圧縮のための新しいフレームワークを提案する。
様々なネットワーク圧縮手法の最近の進歩を活用し、空間性、量子化、双項化などのいくつかの実装を行っている。
フレームワークは、トレーニングサンプル内に提供され、あるいは既存のトレーニングコードにシームレスに統合可能なスタンドアロンパッケージとして使用することができる。
論文 参考訳(メタデータ) (2020-02-20T11:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。