論文の概要: COMET: A Novel Memory-Efficient Deep Learning Training Framework by
Using Error-Bounded Lossy Compression
- arxiv url: http://arxiv.org/abs/2111.09562v1
- Date: Thu, 18 Nov 2021 07:43:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 21:11:06.923043
- Title: COMET: A Novel Memory-Efficient Deep Learning Training Framework by
Using Error-Bounded Lossy Compression
- Title(参考訳): comet: エラーバウンド損失圧縮を用いた新しいメモリ効率の高いディープラーニングトレーニングフレームワーク
- Authors: Sian Jin, Chengming Zhang, Xintong Jiang, Yunhe Feng, Hui Guan,
Guanpeng Li, Shuaiwen Leon Song, Dingwen Tao
- Abstract要約: 広範かつ深層ニューラルネットワーク(DNN)のトレーニングには、メモリなどの大量のストレージリソースが必要になる。
本稿では,メモリ効率のよいCNNトレーニングフレームワーク(COMET)を提案する。
我々のフレームワークは、ベースライントレーニングで最大13.5倍、最先端の圧縮ベースのフレームワークで1.8倍のトレーニングメモリ消費を大幅に削減できる。
- 参考スコア(独自算出の注目度): 8.080129426746288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training wide and deep neural networks (DNNs) require large amounts of
storage resources such as memory because the intermediate activation data must
be saved in the memory during forward propagation and then restored for
backward propagation. However, state-of-the-art accelerators such as GPUs are
only equipped with very limited memory capacities due to hardware design
constraints, which significantly limits the maximum batch size and hence
performance speedup when training large-scale DNNs. Traditional memory saving
techniques either suffer from performance overhead or are constrained by
limited interconnect bandwidth or specific interconnect technology. In this
paper, we propose a novel memory-efficient CNN training framework (called
COMET) that leverages error-bounded lossy compression to significantly reduce
the memory requirement for training, to allow training larger models or to
accelerate training. Different from the state-of-the-art solutions that adopt
image-based lossy compressors (such as JPEG) to compress the activation data,
our framework purposely adopts error-bounded lossy compression with a strict
error-controlling mechanism. Specifically, we perform a theoretical analysis on
the compression error propagation from the altered activation data to the
gradients, and empirically investigate the impact of altered gradients over the
training process. Based on these analyses, we optimize the error-bounded lossy
compression and propose an adaptive error-bound control scheme for activation
data compression. We evaluate our design against state-of-the-art solutions
with five widely-adopted CNNs and ImageNet dataset. Experiments demonstrate
that our proposed framework can significantly reduce the training memory
consumption by up to 13.5X over the baseline training and 1.8X over another
state-of-the-art compression-based framework, respectively, with little or no
accuracy loss.
- Abstract(参考訳): 広い深層ニューラルネットワーク(DNN)のトレーニングには、前方伝播中に中間活性化データをメモリに保存し、後方伝播のために復元する必要があるため、メモリなどの大量のストレージリソースが必要になる。
しかし、GPUのような最先端のアクセラレータは、ハードウェア設計の制約によりメモリ容量が非常に限られており、大規模なDNNをトレーニングする際の最大バッチサイズを著しく制限している。
従来のメモリセーブ技術は性能上のオーバーヘッドに悩まされるか、限られた帯域幅または特定の相互接続技術によって制約される。
本稿では,エラーバウンドの損失圧縮を利用したメモリ効率の高いCNNトレーニングフレームワーク(COMET)を提案し,トレーニングのメモリ要求を大幅に低減し,より大きなモデルをトレーニングしたり,トレーニングを高速化する。
画像ベースの損失圧縮機(JPEGなど)を用いてアクティベーションデータを圧縮する最先端のソリューションとは違って,我々のフレームワークは,厳密なエラー制御機構を備えたエラーバウンド損失圧縮を意図的に採用している。
具体的には,変化したアクティベーションデータから勾配への圧縮誤差伝播に関する理論的解析を行い,学習過程における変化勾配の影響を実験的に検討する。
これらの解析に基づいて,エラーバウンド損失圧縮を最適化し,アクティベーションデータ圧縮のための適応型エラーバウンド制御方式を提案する。
我々は5つの広く登録されたCNNとImageNetデータセットによる最先端のソリューションに対する設計を評価する。
実験により,提案フレームワークは,ベースライントレーニングよりも最大13.5倍,他の最先端圧縮ベースフレームワークよりも1.8倍のトレーニングメモリ使用量を大幅に削減できることを示した。
関連論文リスト
- Causal Context Adjustment Loss for Learned Image Compression [72.7300229848778]
近年,学習画像圧縮(lic)技術は,特にRD性能の点で従来の手法を上回りつつある。
現在の技術のほとんどは、自己回帰エントロピーモデルを備えたVAEベースで、デコードされた因果コンテキストを利用してRD性能を向上する。
本稿では,提案した因果文脈調整損失を用いて因果文脈を的確に調整する方法を初めて検討する。
論文 参考訳(メタデータ) (2024-10-07T09:08:32Z) - Accelerating Communication in Deep Learning Recommendation Model Training with Dual-Level Adaptive Lossy Compression [10.233937665979694]
DLRMは最先端のレコメンデーションシステムモデルであり、様々な業界アプリケーションで広く採用されている。
このプロセスの重大なボトルネックは、すべてのデバイスから埋め込みデータを集めるのに必要な全通信に時間を要することだ。
本稿では,通信データサイズを削減し,DLRMトレーニングを高速化するために,エラーバウンドの損失圧縮を利用する手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T05:55:18Z) - Probing Image Compression For Class-Incremental Learning [8.711266563753846]
連続機械学習(ML)システムは、前もって学習したデータのパフォーマンスを維持するために、メモリ制限内に代表サンプル(例題としても知られる)を格納することに依存する。
本稿では,バッファの容量を増大させる戦略として画像圧縮を利用する方法を検討する。
本稿では,事前処理データ圧縮ステップと効率的な圧縮率/アルゴリズム選択方法を含む連続MLのための画像圧縮を組み込む新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-10T18:58:14Z) - GraVAC: Adaptive Compression for Communication-Efficient Distributed DL
Training [0.0]
分散データ並列(DDP)トレーニングは、複数のデバイスがデータのサブセットをトレーニングし、アップデートを集約してグローバルに共有するモデルを生成することにより、アプリケーション全体のスループットを向上させる。
GraVACは、モデル進捗を評価し、圧縮に関連する情報損失を評価することで、トレーニング全体を通して圧縮係数を動的に調整するフレームワークである。
静的圧縮係数を使用するのとは対照的に、GraVACはResNet101、VGG16、LSTMのエンドツーエンドのトレーニング時間をそれぞれ4.32x、1.95x、6.67x削減する。
論文 参考訳(メタデータ) (2023-05-20T14:25:17Z) - Crowd Counting on Heavily Compressed Images with Curriculum Pre-Training [90.76576712433595]
ディープニューラルネットワークによって処理された画像に損失圧縮を適用することで、大幅な精度低下につながる可能性がある。
カリキュラム学習のパラダイムに着想を得て,圧縮画像の群集カウントのためのカリキュラム事前学習(CPT)と呼ばれる新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-08-15T08:43:21Z) - DIVISION: Memory Efficient Training via Dual Activation Precision [60.153754740511864]
最先端の研究は、量子化ビット幅の探索とトレーニングを組み合わせることで、手順を複雑にし、透明性を損なう。
そこで本研究では,DNNトレーニングを簡易かつ効果的に圧縮する手法を提案する。
実験結果によると、DIVISIONは10倍以上のアクティベーションマップの圧縮や、モデルの精度を損なうことなく、競争訓練のスループットなど、最先端の手法よりも総合的な性能を示している。
論文 参考訳(メタデータ) (2022-08-05T03:15:28Z) - On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - Practical Network Acceleration with Tiny Sets [38.742142493108744]
ネットワーク圧縮は、ディープニューラルネットワークの推論を加速するのに有効である。
しかし、精度の低下から回復するためには、トレーニングデータをすべて微調整する必要があることが多い。
そこで本研究では, PRACTISEという手法を用いて, トレーニング画像の小さなセットでネットワークを高速化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-16T05:04:38Z) - Neural Network Compression for Noisy Storage Devices [71.4102472611862]
従来、モデル圧縮と物理ストレージは分離される。
このアプローチでは、ストレージは圧縮されたモデルの各ビットを等しく扱い、各ビットに同じ量のリソースを割り当てるように強制される。
i) 各メモリセルの容量を最大化するためにアナログメモリを使用し, (ii) モデル圧縮と物理ストレージを共同で最適化し, メモリの有用性を最大化する。
論文 参考訳(メタデータ) (2021-02-15T18:19:07Z) - An Efficient Statistical-based Gradient Compression Technique for
Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。
SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文 参考訳(メタデータ) (2021-01-26T13:06:00Z) - A Novel Memory-Efficient Deep Learning Training Framework via
Error-Bounded Lossy Compression [6.069852296107781]
本稿では,メモリ駆動型高速DNNトレーニングフレームワークを提案する。
我々のフレームワークは、ベースライントレーニングと圧縮による最先端フレームワークよりも最大13.5xと1.8xのトレーニングメモリ消費を大幅に削減することができる。
論文 参考訳(メタデータ) (2020-11-18T00:47:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。