論文の概要: Continual Learning Approach for Improving the Data and Computation
Mapping in Near-Memory Processing System
- arxiv url: http://arxiv.org/abs/2104.13671v1
- Date: Wed, 28 Apr 2021 09:50:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-29 12:37:58.584530
- Title: Continual Learning Approach for Improving the Data and Computation
Mapping in Near-Memory Processing System
- Title(参考訳): ニアメモリ処理システムにおけるデータと計算マッピングの改善のための連続学習手法
- Authors: Pritam Majumder, Jiayi Huang, Sungkeun Kim, Abdullah Muzahid, Dylan
Siegers, Chia-Che Tsai, and Eun Jung Kim
- Abstract要約: ページと計算再マッピングによるデータ配置とリソース活用を最適化する人工知能メモリマッピング方式であるAIMMを提案する。
AIMMはニューラルネットワークを使用して、強化学習アルゴリズムを使用して訓練された実行中にほぼ最適なマッピングを実現します。
本研究では,AIMMが単一および複数プログラムシナリオにおけるベースラインNMP性能を最大70%と50%向上させたことを評価した。
- 参考スコア(独自算出の注目度): 3.202860612193139
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The resurgence of near-memory processing (NMP) with the advent of big data
has shifted the computation paradigm from processor-centric to memory-centric
computing. To meet the bandwidth and capacity demands of memory-centric
computing, 3D memory has been adopted to form a scalable memory-cube network.
Along with NMP and memory system development, the mapping for placing data and
guiding computation in the memory-cube network has become crucial in driving
the performance improvement in NMP. However, it is very challenging to design a
universal optimal mapping for all applications due to unique application
behavior and intractable decision space. In this paper, we propose an
artificially intelligent memory mapping scheme, AIMM, that optimizes data
placement and resource utilization through page and computation remapping. Our
proposed technique involves continuously evaluating and learning the impact of
mapping decisions on system performance for any application. AIMM uses a neural
network to achieve a near-optimal mapping during execution, trained using a
reinforcement learning algorithm that is known to be effective for exploring a
vast design space. We also provide a detailed AIMM hardware design that can be
adopted as a plugin module for various NMP systems. Our experimental evaluation
shows that AIMM improves the baseline NMP performance in single and multiple
program scenario by up to 70% and 50%, respectively.
- Abstract(参考訳): ビッグデータの出現に伴うニアメモリ処理(NMP)の復活は、計算パラダイムをプロセッサ中心からメモリ中心にシフトさせた。
メモリ中心コンピューティングの帯域幅と容量要求を満たすため、スケーラブルなメモリキューブネットワークを形成するために3Dメモリが採用された。
NMPやメモリシステムの開発とともに、NMPの性能向上を推進する上で、メモリキューブネットワークにおけるデータ配置と導出計算のマッピングが重要である。
しかし、一意なアプリケーション動作と難解な決定空間のため、すべてのアプリケーションに対して普遍的な最適マッピングを設計することは非常に困難である。
本稿では,ページと計算の再マップによるデータ配置とリソース利用を最適化する,aim(artificially intelligent memory mapping scheme)を提案する。
提案手法は,任意のアプリケーションに対するマッピング決定がシステム性能に与える影響を継続的に評価し学習することを含む。
AIMMは、ニューラルネットワークを使用して実行中にほぼ最適なマッピングを実現し、広大な設計空間を探索するのに有効な強化学習アルゴリズムを使用してトレーニングする。
また,様々なNMPシステムのプラグインモジュールとして採用可能な,詳細なAIMMハードウェア設計も提供する。
実験の結果,AIMMは1つのプログラムシナリオと複数プログラムシナリオのベースラインNMP性能を最大70%,50%向上させることがわかった。
関連論文リスト
- Revisiting Zeroth-Order Optimization for Memory-Efficient LLM
Fine-Tuning: A Benchmark [170.47660885570463]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z) - Heterogeneous Data-Centric Architectures for Modern Data-Intensive
Applications: Case Studies in Machine Learning and Databases [9.927754948343326]
Processing-in-Memory(PIM)は、現代のアプリケーションにおけるデータ移動のボトルネックを軽減する、有望な実行パラダイムである。
本稿では,2つの現代的なデータ集約型アプリケーションに対して,PIMパラダイムの活用方法を示す。
論文 参考訳(メタデータ) (2022-05-29T13:43:17Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [70.29404271727155]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - PIM-DRAM:Accelerating Machine Learning Workloads using Processing in
Memory based on DRAM Technology [2.6168147530506958]
MLワークロードにおける行列ベクトル演算を高速化する処理インメモリ(PIM)プリミティブを提案する。
提案したアーキテクチャ,マッピング,データフローは,GPUよりも最大で23倍,6.5倍のメリットが得られることを示す。
論文 参考訳(メタデータ) (2021-05-08T16:39:24Z) - Hybrid In-memory Computing Architecture for the Training of Deep Neural
Networks [5.050213408539571]
ハードウェアアクセラレータ上でのディープニューラルネットワーク(DNN)のトレーニングのためのハイブリッドインメモリコンピューティングアーキテクチャを提案する。
HICをベースとしたトレーニングでは,ベースラインに匹敵する精度を達成するために,推論モデルのサイズが約50%小さくなることを示す。
シミュレーションの結果,HICをベースとしたトレーニングにより,PCMの耐久限界のごく一部に,デバイスによる書き込みサイクルの回数を自然に確保できることがわかった。
論文 参考訳(メタデータ) (2021-02-10T05:26:27Z) - Robust High-dimensional Memory-augmented Neural Networks [13.82206983716435]
メモリ拡張ニューラルネットワークは、これらの問題を克服するために、明示的なメモリでニューラルネットワークを強化する。
この明示的なメモリへのアクセスは、各個々のメモリエントリを含むソフト読み取りおよび書き込み操作を介して行われる。
本稿では,高次元(HD)ベクトル上でのアナログインメモリ計算を行う明示メモリとして,計算メモリユニットを用いた頑健なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-10-05T12:01:56Z) - Optimizing Memory Placement using Evolutionary Graph Reinforcement
Learning [56.83172249278467]
大規模検索空間を対象とした進化グラフ強化学習(EGRL)を提案する。
我々は、推論のために、Intel NNP-Iチップ上で、我々のアプローチを直接訓練し、検証する。
また,NNP-Iコンパイラと比較して28~78%の高速化を実現している。
論文 参考訳(メタデータ) (2020-07-14T18:50:12Z) - In-memory Implementation of On-chip Trainable and Scalable ANN for AI/ML
Applications [0.0]
本稿では,人工知能(AI)と機械学習(ML)アプリケーションを実現するための,ANNのためのインメモリコンピューティングアーキテクチャを提案する。
我々の新しいオンチップトレーニングとインメモリアーキテクチャは、プリチャージサイクル当たりの配列の複数行を同時にアクセスすることで、エネルギーコストを削減し、スループットを向上させる。
提案したアーキテクチャはIRISデータセットでトレーニングされ、以前の分類器と比較してMAC当たりのエネルギー効率が4,6倍に向上した。
論文 参考訳(メタデータ) (2020-05-19T15:36:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。