論文の概要: Pipeline Gradient-based Model Training on Analog In-memory Accelerators
- arxiv url: http://arxiv.org/abs/2410.15155v1
- Date: Sat, 19 Oct 2024 16:58:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:15:45.830825
- Title: Pipeline Gradient-based Model Training on Analog In-memory Accelerators
- Title(参考訳): アナログインメモリ加速器を用いたパイプライン勾配モデルトレーニング
- Authors: Zhaoxian Wu, Quan Xiao, Tayfun Gokmen, Hsinyu Tsai, Kaoutar El Maghraoui, Tianyi Chen,
- Abstract要約: インメモリAIMCアクセラレータは、エネルギー効率のよい方法で大規模なディープニューラルモデル(DNN)のトレーニングを加速することができる。
我々は、デジタルドメインのパイプラインにインスパイアされたAIMCアクセラレーターに対して、同期および非同期パイプライン並列性を提案する。
本稿では、サンプリングとクロックサイクルの複雑さの観点から、同期パイプラインと非同期パイプラインの両方に理論的収束を保証する。
- 参考スコア(独自算出の注目度): 27.7426132507863
- License:
- Abstract: Aiming to accelerate the training of large deep neural models (DNN) in an energy-efficient way, an analog in-memory computing (AIMC) accelerator emerges as a solution with immense potential. In AIMC accelerators, trainable weights are kept in memory without the need to move from memory to processors during the training, reducing a bunch of overhead. However, although the in-memory feature enables efficient computation, it also constrains the use of data parallelism since copying weights from one AIMC to another is expensive. To enable parallel training using AIMC, we propose synchronous and asynchronous pipeline parallelism for AIMC accelerators inspired by the pipeline in digital domains. This paper provides a theoretical convergence guarantee for both synchronous and asynchronous pipelines in terms of both sampling and clock cycle complexity, which is non-trivial since the physical characteristic of AIMC accelerators leads to analog updates that suffer from asymmetric bias. The simulations of training DNN on real datasets verify the efficiency of pipeline training.
- Abstract(参考訳): エネルギー効率のよい方法で大規模ディープニューラルモデル(DNN)のトレーニングを加速することを目的として、アナログインメモリコンピューティング(AIMC)アクセラレーターが巨大なポテンシャルを持つソリューションとして登場した。
AIMCアクセラレータでは、トレーニング中にメモリからプロセッサに移行することなく、トレーニング可能なウェイトをメモリに保持する。
しかし、インメモリ機能は効率的な計算を可能にするが、あるAIMCから別のAIMCへの重みのコピーが高価であるため、データ並列性の使用を制限している。
AIMCを用いた並列トレーニングを実現するために、デジタルドメインのパイプラインにインスパイアされたAIMCアクセラレータに対して、同期および非同期パイプライン並列性を提案する。
本稿では,AIMC加速器の物理的特性が非対称バイアスに悩まされるアナログ更新をもたらすため,サンプリングとクロックサイクルの複雑さの両面から,同期パイプラインと非同期パイプラインの双方に理論的収束を保証する。
実際のデータセット上でのDNNトレーニングのシミュレーションは、パイプライントレーニングの効率性を検証する。
関連論文リスト
- Partitioned Neural Network Training via Synthetic Intermediate Labels [0.0]
GPUメモリの制約は、そのような巨大なモデルをトレーニングする上で、注目すべきボトルネックになっている。
この研究は、モデルをGPU間で分割し、個々のセグメントをトレーニングするために合成中間ラベルを生成することを提唱する。
このアプローチは、モデル精度を維持しながらデータ通信を最小限に抑える、より効率的なトレーニングプロセスをもたらす。
論文 参考訳(メタデータ) (2024-03-17T13:06:29Z) - Cyclic Data Parallelism for Efficient Parallelism of Deep Neural Networks [9.88545357507935]
Data ParallelismやZeRO-DPといった既存の手法では、データのマイクロバッチが並列に処理される。
本稿では,マイクロバッチの実行を同時からシーケンシャルにシフトさせる新しいパラダイムであるCyclic Data Parallelismを提案する。
論文 参考訳(メタデータ) (2024-03-13T08:39:21Z) - Efficient Asynchronous Federated Learning with Sparsification and
Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。
FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。
TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文 参考訳(メタデータ) (2023-12-23T07:47:07Z) - AccEPT: An Acceleration Scheme for Speeding Up Edge Pipeline-parallel
Training [22.107070114339038]
本稿では,エッジ協調パイプライン並列トレーニングを高速化するアクセラレーションスキームであるAccEPTを提案する。
特に,異なるデバイスにおける各レイヤの遅延を正確に推定する軽量適応遅延予測器を提案する。
数値計算の結果,提案手法により,エッジパイプラインの並列学習を最大3倍高速化できることがわかった。
論文 参考訳(メタデータ) (2023-11-10T02:18:33Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - BaPipe: Exploration of Balanced Pipeline Parallelism for DNN Training [9.551339069298011]
BaPipeは分散ディープラーニングのためのパイプライン並列化トレーニングフレームワークである。
パイプライン並列性トレーニングメソッドと分散トレーニングのためのバランスの取れたパーティション戦略を自動で探索する。
BaPipeは、様々なプラットフォームで最大3.2倍のスピードアップと4倍のメモリ削減を提供する。
論文 参考訳(メタデータ) (2020-12-23T08:57:39Z) - Procrustes: a Dataflow and Accelerator for Sparse Deep Neural Network
Training [0.5219568203653523]
我々は,まず,第1の訓練を行わず,第2の訓練を行ない,第2の訓練を行ない,第1の訓練を行ない,第1の訓練を行ない,第1の訓練を行ない,第2の訓練を行ないながら,第1の訓練を行ない,第1の訓練を行ない,第2の訓練を行ないながら、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行なう。
最先端のDNNアクセラレーターをスパーストレーニングサポートなしで使用した同等の未使用モデルのトレーニングと比較すると、Procrustesは最大3.26$times$少ないエネルギーを消費し、様々なモデルにわたって最大4$times$のスピードアップを提供する。
論文 参考訳(メタデータ) (2020-09-23T07:39:55Z) - One-step regression and classification with crosspoint resistive memory
arrays [62.997667081978825]
高速で低エネルギーのコンピュータは、エッジでリアルタイム人工知能を実現するために要求されている。
ワンステップ学習は、ボストンの住宅のコスト予測と、MNIST桁認識のための2層ニューラルネットワークのトレーニングによって支援される。
結果は、クロスポイントアレイ内の物理計算、並列計算、アナログ計算のおかげで、1つの計算ステップで得られる。
論文 参考訳(メタデータ) (2020-05-05T08:00:07Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z) - Accelerating Feedforward Computation via Parallel Nonlinear Equation
Solving [106.63673243937492]
ニューラルネットワークの評価や自己回帰モデルからのサンプリングなどのフィードフォワード計算は、機械学習においてユビキタスである。
本稿では,非線形方程式の解法としてフィードフォワード計算の課題を定式化し,ジャコビ・ガウス・シーデル固定点法とハイブリッド法を用いて解を求める。
提案手法は, 並列化可能な繰り返し回数の削減(あるいは等値化)により, 元のフィードフォワード計算と全く同じ値が与えられることを保証し, 十分な並列化計算能力を付与する。
論文 参考訳(メタデータ) (2020-02-10T10:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。