論文の概要: Compressing the Backward Pass of Large-Scale Neural Architectures by
Structured Activation Pruning
- arxiv url: http://arxiv.org/abs/2311.16883v2
- Date: Wed, 29 Nov 2023 14:41:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 12:20:35.118414
- Title: Compressing the Backward Pass of Large-Scale Neural Architectures by
Structured Activation Pruning
- Title(参考訳): 構造的アクティブプルーニングによる大規模ニューラルネットワークの後方通過圧縮
- Authors: Daniel Barley, Holger Fr\"oning
- Abstract要約: ディープニューラルネットワーク(DNN)におけるスパシティはソリューションとして注目されている。
この研究は、訓練中のメモリ消費を減らすことを目的として、短命の空間性に焦点を当てている。
大規模ニューラルアーキテクチャのトレーニング速度,精度,メモリ使用量を評価することにより,アクティベーションプルーニングの有効性を報告する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The rise of Deep Neural Networks (DNNs) has led to an increase in model size
and complexity, straining the memory capacity of GPUs. Sparsity in DNNs,
characterized as structural or ephemeral, has gained attention as a solution.
This work focuses on ephemeral sparsity, aiming to reduce memory consumption
during training. It emphasizes the significance of activations, an often
overlooked component, and their role in memory usage. This work employs
structured pruning in Block Sparse Compressed Row (BSR) format in combination
with a magnitude-based criterion to efficiently prune activations. We
furthermore introduce efficient block-sparse operators for GPUs and showcase
their effectiveness, as well as the superior compression offered by block
sparsity. We report the effectiveness of activation pruning by evaluating
training speed, accuracy, and memory usage of large-scale neural architectures
on the example of ResMLP on image classification tasks. As a result, we observe
a memory reduction of up to 32% while maintaining accuracy. Ultimately, our
approach aims to democratize large-scale model training, reduce GPU
requirements, and address ecological concerns.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)の台頭により、モデルサイズと複雑性が増加し、GPUのメモリ容量が制限された。
構造的あるいは短命的な特徴を持つDNNのスパーシリティは、ソリューションとして注目されている。
この研究は、トレーニング中のメモリ消費を減らすことを目的とした、短命なスパーシティに焦点を当てている。
しばしば見過ごされるコンポーネントであるアクティベーションの重要性と、メモリ使用におけるそれらの役割を強調している。
この研究は、Block Sparse Compressed Row (BSR)フォーマットで構造化されたプルーニングと、マグニチュードベースの基準を組み合わせて、効率的にプルー活性化を行う。
さらに、GPUのための効率的なブロックスパース演算子を導入し、その性能とブロック間隔による優れた圧縮を示す。
画像分類タスクにおけるResMLPの例として,大規模ニューラルネットワークのトレーニング速度,精度,メモリ使用量を評価することにより,アクティベーションプルーニングの有効性を報告する。
その結果,精度を維持しつつ,最大32%のメモリ削減を観測した。
最終的には、大規模なモデルトレーニングの民主化、GPU要件の削減、生態的な懸念への対処を目的としています。
関連論文リスト
- HASN: Hybrid Attention Separable Network for Efficient Image Super-resolution [5.110892180215454]
単一画像の超高解像度化のための軽量な手法は、限られたハードウェアリソースのために優れた性能を達成した。
その結果, 各ブロックの残差接続により, モデルストレージと計算コストが増大することが判明した。
我々は,基本的特徴抽出モジュールとして,奥行き分離可能な畳み込み,完全連結層,アクティベーション関数を用いる。
論文 参考訳(メタデータ) (2024-10-13T14:00:21Z) - Less Memory Means smaller GPUs: Backpropagation with Compressed Activations [1.7065506903618906]
深層ニューラルネットワーク(DNN)の規模は、計算リソースの要件が等しく急速に増大している。
最近の多くのアーキテクチャ、特にLarge Language Modelsは、何千ものアクセラレーターを持つスーパーコンピュータを使って訓練されなければならない。
このアプローチにより、より長いトレーニングスケジュールのコストで、ピークメモリ使用量を29%削減することが可能になります。
論文 参考訳(メタデータ) (2024-09-18T11:57:05Z) - Topology-aware Embedding Memory for Continual Learning on Expanding Networks [63.35819388164267]
本稿では,メモリリプレイ技術を用いて,メモリ爆発問題に対処する枠組みを提案する。
Topology-aware Embedding Memory (TEM) を用いたPDGNNは最先端技術よりも優れている。
論文 参考訳(メタデータ) (2024-01-24T03:03:17Z) - Activation Compression of Graph Neural Networks using Block-wise
Quantization with Improved Variance Minimization [0.21756081703275998]
中間活性化マップのブロックワイド量子化によるEXACT戦略の改善を提案する。
極端に量子化を行う場合であっても、メモリ消費(>15%)とエポックあたりの実行速度(約5%)がさらに減少することを示す。
論文 参考訳(メタデータ) (2023-09-21T07:59:08Z) - FPGA Resource-aware Structured Pruning for Real-Time Neural Networks [3.294652922898631]
プルーニングはニューラルネットワークをスパースし、乗算とメモリの数を減らします。
資源対応テンソル構造を持つクナップサック問題として定式化することで,ハードウェア中心のプルーニングの定式化を提案する。
提案手法は, DSP使用率の55%から92%, BRAM使用率の81%の削減を実現する。
論文 参考訳(メタデータ) (2023-08-09T18:14:54Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - ActNN: Reducing Training Memory Footprint via 2-Bit Activation
Compressed Training [68.63354877166756]
ActNNは、バック伝搬のためのランダムに量子化されたアクティベーションを格納するメモリ効率のトレーニングフレームワークである。
ActNNはアクティベーションのメモリフットプリントを12倍に削減し、6.6倍から14倍のバッチサイズでトレーニングを可能にする。
論文 参考訳(メタデータ) (2021-04-29T05:50:54Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z) - Optimizing Memory Placement using Evolutionary Graph Reinforcement
Learning [56.83172249278467]
大規模検索空間を対象とした進化グラフ強化学習(EGRL)を提案する。
我々は、推論のために、Intel NNP-Iチップ上で、我々のアプローチを直接訓練し、検証する。
また,NNP-Iコンパイラと比較して28~78%の高速化を実現している。
論文 参考訳(メタデータ) (2020-07-14T18:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。