論文の概要: NeuroFlux: Memory-Efficient CNN Training Using Adaptive Local Learning
- arxiv url: http://arxiv.org/abs/2402.14139v2
- Date: Mon, 4 Mar 2024 17:47:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 23:47:50.409492
- Title: NeuroFlux: Memory-Efficient CNN Training Using Adaptive Local Learning
- Title(参考訳): NeuroFlux: 適応型局所学習を用いたメモリ効率の良いCNNトレーニング
- Authors: Dhananjay Saikumar and Blesson Varghese
- Abstract要約: リソース制約のあるモバイル環境とエッジ環境での畳み込みニューラルネットワーク(CNN)トレーニングは、オープンな課題である。
バックプロパゲーションは標準のアプローチだが、層間依存関係が強いため、GPUメモリが集中している。
本稿では,メモリ制限シナリオに適した新しいCNNトレーニングシステムであるNeuroFluxを紹介する。
- 参考スコア(独自算出の注目度): 2.61072980439312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient on-device Convolutional Neural Network (CNN) training in
resource-constrained mobile and edge environments is an open challenge.
Backpropagation is the standard approach adopted, but it is GPU memory
intensive due to its strong inter-layer dependencies that demand intermediate
activations across the entire CNN model to be retained in GPU memory. This
necessitates smaller batch sizes to make training possible within the available
GPU memory budget, but in turn, results in substantially high and impractical
training time. We introduce NeuroFlux, a novel CNN training system tailored for
memory-constrained scenarios. We develop two novel opportunities: firstly,
adaptive auxiliary networks that employ a variable number of filters to reduce
GPU memory usage, and secondly, block-specific adaptive batch sizes, which not
only cater to the GPU memory constraints but also accelerate the training
process. NeuroFlux segments a CNN into blocks based on GPU memory usage and
further attaches an auxiliary network to each layer in these blocks. This
disrupts the typical layer dependencies under a new training paradigm -
$\textit{`adaptive local learning'}$. Moreover, NeuroFlux adeptly caches
intermediate activations, eliminating redundant forward passes over previously
trained blocks, further accelerating the training process. The results are
twofold when compared to Backpropagation: on various hardware platforms,
NeuroFlux demonstrates training speed-ups of 2.3$\times$ to 6.1$\times$ under
stringent GPU memory budgets, and NeuroFlux generates streamlined models that
have 10.9$\times$ to 29.4$\times$ fewer parameters.
- Abstract(参考訳): リソース制約のあるモバイルおよびエッジ環境での効率的なon-device convolutional neural network(cnn)トレーニングは、オープンチャレンジである。
バックプロパゲーションは標準のアプローチであるが、GPUメモリに保持されるCNNモデル全体で中間的なアクティベーションを要求する層間依存関係が強いため、GPUメモリ集約である。
これにより、利用可能なGPUメモリ予算内でのトレーニングを可能にするために、バッチサイズを小さくする必要があるが、結果として、実質的かつ非現実的なトレーニング時間が得られる。
本稿では,メモリ制限シナリオに適した新しいCNNトレーニングシステムであるNeuroFluxを紹介する。
まず,gpuメモリ使用量を削減するために可変数のフィルタを用いる適応型補助ネットワークと,gpuメモリ制約に対応するだけでなく,トレーニングプロセスを高速化するブロック固有の適応型バッチサイズである。
neurofluxは、cnnをgpuメモリ使用量に基づいてブロックにセグメンテーションし、さらにこれらのブロックの各レイヤに補助ネットワークをアタッチする。
これにより、新しいトレーニングパラダイム$\textit{`adaptive local learning'}$の下で、典型的な層依存性が乱される。
さらにNeuroFluxは、中間アクティベーションを積極的にキャッシュし、以前にトレーニングされたブロックの冗長なフォワードパスを排除し、トレーニングプロセスをさらに加速する。
様々なハードウェアプラットフォームにおいて、neurofluxは、厳密なgpuメモリ予算の下で2.3$\times$から6.1$\times$のトレーニングスピードアップを示し、neurofluxは10.9$\times$から29.4$\times$のパラメータを持つ合理化されたモデルを生成する。
関連論文リスト
- Distributed Convolutional Neural Network Training on Mobile and Edge Clusters [0.9421843976231371]
機械学習タスクをエッジに完全にローカライズするための最近の取り組みが登場した。
これにより、レイテンシの低減とプライバシの向上にメリットがあるが、リソース制約のあるデバイスで作業する必要がある。
本稿では,モバイルデバイスとエッジデバイスのみを対象とした分散CNNトレーニングのアプローチについて述べる。
論文 参考訳(メタデータ) (2024-09-11T02:44:28Z) - Communication-Free Distributed GNN Training with Vertex Cut [63.22674903170953]
CoFree-GNNは、コミュニケーションのないトレーニングを実装することで、トレーニングプロセスを大幅に高速化する、分散GNNトレーニングフレームワークである。
我々は、CoFree-GNNが既存の最先端のGNNトレーニングアプローチよりも最大10倍高速なGNNトレーニングプロセスを実証した。
論文 参考訳(メタデータ) (2023-08-06T21:04:58Z) - DistTGL: Distributed Memory-Based Temporal Graph Neural Network Training [18.52206409432894]
DistTGLは、分散GPUクラスタ上でメモリベースのTGNNをトレーニングするための、効率的でスケーラブルなソリューションである。
実験では、DistTGLはほぼ直線収束のスピードアップを実現し、最先端のシングルマシン法を14.5%、トレーニングスループットは10.17倍に向上した。
論文 参考訳(メタデータ) (2023-07-14T22:52:27Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z) - On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。
小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。
数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文 参考訳(メタデータ) (2022-01-16T07:22:47Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - perf4sight: A toolflow to model CNN training performance on Edge GPUs [16.61258138725983]
この研究は、CNNのトレーニングメモリフットプリントとレイテンシを予測する正確なモデルを開発するための自動化手法であるperf4sightを提案する。
フレームワークはPyTorch、ターゲットデバイスはNVIDIA Jetson TX2、それぞれ95%と91%の精度でトレーニングメモリフットプリントとレイテンシを予測する。
論文 参考訳(メタデータ) (2021-08-12T07:55:37Z) - When deep learning models on GPU can be accelerated by taking advantage
of unstructured sparsity [0.0]
本稿では、グラフィック処理ユニット(GPU)上でのスパース畳み込みニューラルネットワーク(CNN)層の効率向上に焦点をあてる。
現代のCNNモデルは、大容量の係数を必要とし、畳み込みを行うために数百万のMAC操作を必要としている。
畳み込み層の計算を高速化するために,直接スパース演算を用いることの価値を示す。
論文 参考訳(メタデータ) (2020-11-12T10:13:48Z) - Optimizing Memory Placement using Evolutionary Graph Reinforcement
Learning [56.83172249278467]
大規模検索空間を対象とした進化グラフ強化学習(EGRL)を提案する。
我々は、推論のために、Intel NNP-Iチップ上で、我々のアプローチを直接訓練し、検証する。
また,NNP-Iコンパイラと比較して28~78%の高速化を実現している。
論文 参考訳(メタデータ) (2020-07-14T18:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。