論文の概要: Machine Learning Training on a Real Processing-in-Memory System
- arxiv url: http://arxiv.org/abs/2206.06022v1
- Date: Mon, 13 Jun 2022 10:20:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-14 22:47:15.212072
- Title: Machine Learning Training on a Real Processing-in-Memory System
- Title(参考訳): 実処理インメモリシステムにおける機械学習トレーニング
- Authors: Juan G\'omez-Luna, Yuxin Guo, Sylvan Brocard, Julien Legriel, Remy
Cimadomo, Geraldo F. Oliveira, Gagandeep Singh, Onur Mutlu
- Abstract要約: 機械学習アルゴリズムのトレーニングは計算集約的なプロセスであり、しばしばメモリバウンドである。
メモリ内処理機能を備えたメモリ中心のコンピューティングシステムは、このデータ移動ボトルネックを軽減することができる。
我々の研究は、現実世界の汎用PIMアーキテクチャ上で機械学習アルゴリズムのトレーニングを評価する最初のものである。
- 参考スコア(独自算出の注目度): 9.286176889576996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training machine learning algorithms is a computationally intensive process,
which is frequently memory-bound due to repeatedly accessing large training
datasets. As a result, processor-centric systems (e.g., CPU, GPU) suffer from
costly data movement between memory units and processing units, which consumes
large amounts of energy and execution cycles. Memory-centric computing systems,
i.e., computing systems with processing-in-memory (PIM) capabilities, can
alleviate this data movement bottleneck.
Our goal is to understand the potential of modern general-purpose PIM
architectures to accelerate machine learning training. To do so, we (1)
implement several representative classic machine learning algorithms (namely,
linear regression, logistic regression, decision tree, K-means clustering) on a
real-world general-purpose PIM architecture, (2) characterize them in terms of
accuracy, performance and scaling, and (3) compare to their counterpart
implementations on CPU and GPU. Our experimental evaluation on a memory-centric
computing system with more than 2500 PIM cores shows that general-purpose PIM
architectures can greatly accelerate memory-bound machine learning workloads,
when the necessary operations and datatypes are natively supported by PIM
hardware.
To our knowledge, our work is the first one to evaluate training of machine
learning algorithms on a real-world general-purpose PIM architecture.
- Abstract(参考訳): 機械学習アルゴリズムのトレーニングは計算集約的なプロセスであり、大規模なトレーニングデータセットに繰り返しアクセスするため、メモリバウンドが頻繁に発生する。
その結果、プロセッサ中心のシステム(CPU、GPUなど)は、大量のエネルギーと実行サイクルを消費するメモリユニットと処理ユニットの間のコストのかかるデータ移動に悩まされる。
メモリ中心のコンピューティングシステム、すなわち、PIM(Process-in-Memory)機能を備えたコンピューティングシステムは、このデータ移動のボトルネックを軽減することができる。
我々の目標は、機械学習のトレーニングを加速するために、現代の汎用PIMアーキテクチャの可能性を理解することである。
そのために,(1)実世界の汎用pimアーキテクチャ上で,いくつかの代表的な古典的機械学習アルゴリズム(線形回帰,ロジスティック回帰,決定木,k-平均クラスタリング)を実装し,(2)正確性,性能,スケーリングの観点から特徴付けし,(3)cpuとgpu上での実装と比較する。
2500以上のPIMコアを持つメモリ中心型コンピューティングシステムに対する実験的な評価は、PIMハードウェアで必要な操作やデータタイプをネイティブにサポートする場合、汎用PIMアーキテクチャがメモリバウンド機械学習ワークロードを大幅に高速化できることを示している。
我々の知る限り、我々の研究は、現実世界の汎用PIMアーキテクチャにおける機械学習アルゴリズムのトレーニングを評価する最初のものである。
関連論文リスト
- Random resistive memory-based deep extreme point learning machine for
unified visual processing [67.51600474104171]
ハードウェア・ソフトウェア共同設計型, ランダム抵抗型メモリベース深部極点学習マシン(DEPLM)を提案する。
我々の共同設計システムは,従来のシステムと比較して,エネルギー効率の大幅な向上とトレーニングコストの削減を実現している。
論文 参考訳(メタデータ) (2023-12-14T09:46:16Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - Performance and Energy Consumption of Parallel Machine Learning
Algorithms [0.0]
機械学習モデルは、様々な現実世界のアプリケーションで顕著な成功を収めた。
機械学習のモデルトレーニングには、大規模データセットと複数のイテレーションが必要である。
トレーニングアルゴリズムの並列化は、トレーニングのプロセスを高速化するための一般的な戦略である。
論文 参考訳(メタデータ) (2023-05-01T13:04:39Z) - Advancing Reacting Flow Simulations with Data-Driven Models [50.9598607067535]
マルチ物理問題における機械学習ツールの効果的な利用の鍵は、それらを物理モデルとコンピュータモデルに結合することである。
本章では, 燃焼システムにおけるデータ駆動型低次モデリングの適用可能性について概説する。
論文 参考訳(メタデータ) (2022-09-05T16:48:34Z) - An Experimental Evaluation of Machine Learning Training on a Real
Processing-in-Memory System [9.429605859159023]
機械学習(ML)アルゴリズムのトレーニングは、計算集約的なプロセスであり、しばしばメモリバウンドである。
メモリ内の処理能力を備えたメモリ中心のコンピューティングシステムは、このデータ移動ボトルネックを軽減することができる。
実世界の汎用PIMアーキテクチャ上で,いくつかの代表的古典的MLアルゴリズムを実装した。
論文 参考訳(メタデータ) (2022-07-16T09:39:53Z) - On-Device Training Under 256KB Memory [65.76525493087847]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは、小さなIoTデバイス上での視覚認識のデバイス上での転送学習のための、最初の実用的なソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - Heterogeneous Data-Centric Architectures for Modern Data-Intensive
Applications: Case Studies in Machine Learning and Databases [9.927754948343326]
Processing-in-Memory(PIM)は、現代のアプリケーションにおけるデータ移動のボトルネックを軽減する、有望な実行パラダイムである。
本稿では,2つの現代的なデータ集約型アプリケーションに対して,PIMパラダイムの活用方法を示す。
論文 参考訳(メタデータ) (2022-05-29T13:43:17Z) - MLPerfTM HPC: A Holistic Benchmark Suite for Scientific Machine Learning
on HPC Systems [32.621917787044396]
我々はMLCommonsTM Associationが推進する科学機械学習トレーニングアプリケーションのベンチマークスイートであるHPCを紹介する。
共同分析のための体系的なフレームワークを開発し、データステージング、アルゴリズム収束、計算性能の観点から比較する。
低レベルのメモリ、I/O、ネットワークの振る舞いに関して、各ベンチマークを特徴付けることで結論付ける。
論文 参考訳(メタデータ) (2021-10-21T20:30:12Z) - A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。
ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。
大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文 参考訳(メタデータ) (2020-08-10T06:07:52Z) - One-step regression and classification with crosspoint resistive memory
arrays [62.997667081978825]
高速で低エネルギーのコンピュータは、エッジでリアルタイム人工知能を実現するために要求されている。
ワンステップ学習は、ボストンの住宅のコスト予測と、MNIST桁認識のための2層ニューラルネットワークのトレーニングによって支援される。
結果は、クロスポイントアレイ内の物理計算、並列計算、アナログ計算のおかげで、1つの計算ステップで得られる。
論文 参考訳(メタデータ) (2020-05-05T08:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。