論文の概要: GradPIM: A Practical Processing-in-DRAM Architecture for Gradient
Descent
- arxiv url: http://arxiv.org/abs/2102.07511v1
- Date: Mon, 15 Feb 2021 12:25:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:13:14.660889
- Title: GradPIM: A Practical Processing-in-DRAM Architecture for Gradient
Descent
- Title(参考訳): GradPIM: グラディエントDescentのための実用的なDRAMアーキテクチャ
- Authors: Heesu Kim, Hanmin Park, Taehyun Kim, Kwanheum Cho, Eojin Lee, Soojung
Ryu, Hyuk-Jae Lee, Kiyoung Choi, Jinho Lee
- Abstract要約: 本稿では,ディープニューラルネットワークトレーニングのパラメータ更新を高速化するメモリ内処理アーキテクチャGradPIMを提案する。
DDR4 SDRAMをバンクグループ並列性に拡張することで、ハードウェアコストと性能の観点から、PIMモジュールでの動作設計を効率化できる。
- 参考スコア(独自算出の注目度): 17.798991516056454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present GradPIM, a processing-in-memory architecture which
accelerates parameter updates of deep neural networks training. As one of
processing-in-memory techniques that could be realized in the near future, we
propose an incremental, simple architectural design that does not invade the
existing memory protocol. Extending DDR4 SDRAM to utilize bank-group
parallelism makes our operation designs in processing-in-memory (PIM) module
efficient in terms of hardware cost and performance. Our experimental results
show that the proposed architecture can improve the performance of DNN training
and greatly reduce memory bandwidth requirement while posing only a minimal
amount of overhead to the protocol and DRAM area.
- Abstract(参考訳): 本稿では,ディープニューラルネットワークトレーニングのパラメータ更新を高速化する処理インメモリアーキテクチャであるgradpimを提案する。
近い将来に実現可能なメモリ処理技術の1つとして、既存のメモリプロトコルに侵入しないインクリメンタルでシンプルなアーキテクチャ設計を提案します。
DDR4 SDRAMをバンクグループ並列性に拡張することで、ハードウェアコストと性能の観点から、PIMモジュールでの動作設計を効率化できる。
実験の結果,提案アーキテクチャはDNNトレーニングの性能を向上し,プロトコルやDRAM領域へのオーバーヘッドを最小限に抑えながら,メモリ帯域幅の要求を大幅に削減できることがわかった。
関連論文リスト
- CAMEL: Co-Designing AI Models and Embedded DRAMs for Efficient On-Device
Learning [9.872386219203413]
IoT(Internet of Things)は、エッジデバイス上で生成される膨大な量のデータを、AIアルゴリズムを使って処理する。
デバイス上での学習により、エッジプラットフォームは、AIモデルをユーザの個人データに継続的に適用し、さらにサービス品質の向上を可能にします。
トレーニングデータの主記憶媒体として,組込み動的ランダムアクセスメモリ(eDRAM)を提案する。
論文 参考訳(メタデータ) (2023-05-04T20:57:01Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Pex: Memory-efficient Microcontroller Deep Learning through Partial
Execution [11.336229510791481]
マイクロコントローラ深層学習のための新しい実行パラダイムについて論じる。
ニューラルネットワークの実行を変更して、メモリの完全なバッファーを作らないようにする。
これは演算子のプロパティを利用することで実現され、一度にインプット/アウトプットのごく一部を消費/生産することができる。
論文 参考訳(メタデータ) (2022-11-30T18:47:30Z) - Accelerating Neural Network Inference with Processing-in-DRAM: From the
Edge to the Cloud [9.927754948343326]
ニューラルネットワークの性能(およびエネルギー効率)は、計算またはメモリリソースによって拘束できる。
PIM(Processing-in-Memory)パラダイムは、メモリバウンドNNを高速化する実行可能なソリューションである。
NN性能とエネルギー効率向上のための3つの最先端PIMアーキテクチャを解析する。
論文 参考訳(メタデータ) (2022-09-19T11:46:05Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - PIM-DRAM:Accelerating Machine Learning Workloads using Processing in
Memory based on DRAM Technology [2.6168147530506958]
MLワークロードにおける行列ベクトル演算を高速化する処理インメモリ(PIM)プリミティブを提案する。
提案したアーキテクチャ,マッピング,データフローは,GPUよりも最大で23倍,6.5倍のメリットが得られることを示す。
論文 参考訳(メタデータ) (2021-05-08T16:39:24Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z) - Kanerva++: extending The Kanerva Machine with differentiable, locally
block allocated latent memory [75.65949969000596]
エピソディックメモリとセマンティックメモリは、人間のメモリモデルの重要なコンポーネントです。
我々は、エピソードメモリとセマンティックメモリのギャップを埋める新しい原理ベイズメモリ割り当てスキームを開発しました。
この割り当て方式がメモリ条件画像生成の性能を向上させることを実証する。
論文 参考訳(メタデータ) (2021-02-20T18:40:40Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z) - In-memory Implementation of On-chip Trainable and Scalable ANN for AI/ML
Applications [0.0]
本稿では,人工知能(AI)と機械学習(ML)アプリケーションを実現するための,ANNのためのインメモリコンピューティングアーキテクチャを提案する。
我々の新しいオンチップトレーニングとインメモリアーキテクチャは、プリチャージサイクル当たりの配列の複数行を同時にアクセスすることで、エネルギーコストを削減し、スループットを向上させる。
提案したアーキテクチャはIRISデータセットでトレーニングされ、以前の分類器と比較してMAC当たりのエネルギー効率が4,6倍に向上した。
論文 参考訳(メタデータ) (2020-05-19T15:36:39Z) - Stage-Wise Neural Architecture Search [65.03109178056937]
ResNetやNASNetのような現代の畳み込みネットワークは、多くのコンピュータビジョンアプリケーションで最先端の結果を得た。
これらのネットワークは、同じ解像度で表現を操作するレイヤのセットであるステージで構成されている。
各ステージにおけるレイヤー数の増加はネットワークの予測能力を向上させることが示されている。
しかし、結果として得られるアーキテクチャは、浮動小数点演算、メモリ要求、推論時間の観点から計算的に高価になる。
論文 参考訳(メタデータ) (2020-04-23T14:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。