Fugu-MT 論文翻訳(概要): Machine Learning Training on a Real Processing-in-Memory System

論文の概要: Machine Learning Training on a Real Processing-in-Memory System

arxiv url: http://arxiv.org/abs/2206.06022v1
Date: Mon, 13 Jun 2022 10:20:23 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-14 22:47:15.212072
Title: Machine Learning Training on a Real Processing-in-Memory System
Title（参考訳）: 実処理インメモリシステムにおける機械学習トレーニング
Authors: Juan G\'omez-Luna, Yuxin Guo, Sylvan Brocard, Julien Legriel, Remy Cimadomo, Geraldo F. Oliveira, Gagandeep Singh, Onur Mutlu
Abstract要約: 機械学習アルゴリズムのトレーニングは計算集約的なプロセスであり、しばしばメモリバウンドである。メモリ内処理機能を備えたメモリ中心のコンピューティングシステムは、このデータ移動ボトルネックを軽減することができる。我々の研究は、現実世界の汎用PIMアーキテクチャ上で機械学習アルゴリズムのトレーニングを評価する最初のものである。
参考スコア（独自算出の注目度）: 9.286176889576996
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Training machine learning algorithms is a computationally intensive process, which is frequently memory-bound due to repeatedly accessing large training datasets. As a result, processor-centric systems (e.g., CPU, GPU) suffer from costly data movement between memory units and processing units, which consumes large amounts of energy and execution cycles. Memory-centric computing systems, i.e., computing systems with processing-in-memory (PIM) capabilities, can alleviate this data movement bottleneck. Our goal is to understand the potential of modern general-purpose PIM architectures to accelerate machine learning training. To do so, we (1) implement several representative classic machine learning algorithms (namely, linear regression, logistic regression, decision tree, K-means clustering) on a real-world general-purpose PIM architecture, (2) characterize them in terms of accuracy, performance and scaling, and (3) compare to their counterpart implementations on CPU and GPU. Our experimental evaluation on a memory-centric computing system with more than 2500 PIM cores shows that general-purpose PIM architectures can greatly accelerate memory-bound machine learning workloads, when the necessary operations and datatypes are natively supported by PIM hardware. To our knowledge, our work is the first one to evaluate training of machine learning algorithms on a real-world general-purpose PIM architecture.
Abstract（参考訳）: 機械学習アルゴリズムのトレーニングは計算集約的なプロセスであり、大規模なトレーニングデータセットに繰り返しアクセスするため、メモリバウンドが頻繁に発生する。その結果、プロセッサ中心のシステム(CPU、GPUなど)は、大量のエネルギーと実行サイクルを消費するメモリユニットと処理ユニットの間のコストのかかるデータ移動に悩まされる。メモリ中心のコンピューティングシステム、すなわち、PIM(Process-in-Memory)機能を備えたコンピューティングシステムは、このデータ移動のボトルネックを軽減することができる。我々の目標は、機械学習のトレーニングを加速するために、現代の汎用PIMアーキテクチャの可能性を理解することである。そのために,(1)実世界の汎用pimアーキテクチャ上で,いくつかの代表的な古典的機械学習アルゴリズム(線形回帰,ロジスティック回帰,決定木,k-平均クラスタリング)を実装し,(2)正確性,性能,スケーリングの観点から特徴付けし,(3)cpuとgpu上での実装と比較する。 2500以上のPIMコアを持つメモリ中心型コンピューティングシステムに対する実験的な評価は、PIMハードウェアで必要な操作やデータタイプをネイティブにサポートする場合、汎用PIMアーキテクチャがメモリバウンド機械学習ワークロードを大幅に高速化できることを示している。我々の知る限り、我々の研究は、現実世界の汎用PIMアーキテクチャにおける機械学習アルゴリズムのトレーニングを評価する最初のものである。

関連論文リスト

Efficient Machine Unlearning via Influence Approximation [75.31015485113993]
インフルエンサーベースのアンラーニングは、個別のトレーニングサンプルがモデルパラメータに与える影響を再トレーニングせずに推定する顕著なアプローチとして現れてきた。本稿では,暗記(増分学習)と忘れ(未学習)の理論的関連性を確立する。本稿では、インフルエンス近似アンラーニングアルゴリズムを導入し、インクリメンタルな視点から効率的なマシンアンラーニングを行う。
論文参考訳（メタデータ） (2025-07-31T05:34:27Z)
Memory Is All You Need: An Overview of Compute-in-Memory Architectures for Accelerating Large Language Model Inference [2.9302211589186244]
大規模言語モデル(LLM)は自然言語処理を変換し、機械が人間のようなテキストを生成し、意味のある会話を行うことを可能にする。計算と記憶能力の発達はムーアの法則の廃止によってさらに悪化している。コンピュート・イン・メモリ(CIM)技術は、メモリ内でアナログ計算を直接実行することにより、AI推論を加速するための有望なソリューションを提供する。
論文参考訳（メタデータ） (2024-06-12T16:57:58Z)
Efficient and accurate neural field reconstruction using resistive memory [52.68088466453264]
デジタルコンピュータにおける従来の信号再構成手法は、ソフトウェアとハードウェアの両方の課題に直面している。本稿では,スパース入力からの信号再構成のためのソフトウェア・ハードウェア協調最適化を用いた体系的アプローチを提案する。この研究は、AI駆動の信号復元技術を進歩させ、将来の効率的で堅牢な医療AIと3Dビジョンアプリケーションへの道を開く。
論文参考訳（メタデータ） (2024-04-15T09:33:09Z)
PIM-Opt: Demystifying Distributed Optimization Algorithms on a Real-World Processing-In-Memory System [21.09681871279162]
大規模データセットに対するモダン機械学習(ML)トレーニングは、時間を要する作業量である。最適化アルゴリズムであるGradient Descent (SGD) は、その効率性、単純さ、一般化性能に頼っている。プロセッサ中心のアーキテクチャは、MLトレーニングワークロードの実行中に低パフォーマンスと高エネルギー消費に悩まされる。 Processing-In-Memory(PIM)は、データ移動のボトルネックを軽減するための有望なソリューションである。
論文参考訳（メタデータ） (2024-04-10T17:00:04Z)
Random resistive memory-based deep extreme point learning machine for unified visual processing [67.51600474104171]
ハードウェア・ソフトウェア共同設計型, ランダム抵抗型メモリベース深部極点学習マシン(DEPLM)を提案する。我々の共同設計システムは,従来のシステムと比較して,エネルギー効率の大幅な向上とトレーニングコストの削減を実現している。
論文参考訳（メタデータ） (2023-12-14T09:46:16Z)
In Situ Framework for Coupling Simulation and Machine Learning with Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文参考訳（メタデータ） (2023-06-22T14:07:54Z)
Performance and Energy Consumption of Parallel Machine Learning Algorithms [0.0]
機械学習モデルは、様々な現実世界のアプリケーションで顕著な成功を収めた。機械学習のモデルトレーニングには、大規模データセットと複数のイテレーションが必要である。トレーニングアルゴリズムの並列化は、トレーニングのプロセスを高速化するための一般的な戦略である。
論文参考訳（メタデータ） (2023-05-01T13:04:39Z)
Advancing Reacting Flow Simulations with Data-Driven Models [50.9598607067535]
マルチ物理問題における機械学習ツールの効果的な利用の鍵は、それらを物理モデルとコンピュータモデルに結合することである。本章では, 燃焼システムにおけるデータ駆動型低次モデリングの適用可能性について概説する。
論文参考訳（メタデータ） (2022-09-05T16:48:34Z)
An Experimental Evaluation of Machine Learning Training on a Real Processing-in-Memory System [9.429605859159023]
機械学習(ML)アルゴリズムのトレーニングは、計算集約的なプロセスであり、しばしばメモリバウンドである。メモリ内の処理能力を備えたメモリ中心のコンピューティングシステムは、このデータ移動ボトルネックを軽減することができる。実世界の汎用PIMアーキテクチャ上で,いくつかの代表的古典的MLアルゴリズムを実装した。
論文参考訳（メタデータ） (2022-07-16T09:39:53Z)
Heterogeneous Data-Centric Architectures for Modern Data-Intensive Applications: Case Studies in Machine Learning and Databases [9.927754948343326]
Processing-in-Memory(PIM)は、現代のアプリケーションにおけるデータ移動のボトルネックを軽減する、有望な実行パラダイムである。本稿では,2つの現代的なデータ集約型アプリケーションに対して,PIMパラダイムの活用方法を示す。
論文参考訳（メタデータ） (2022-05-29T13:43:17Z)
A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文参考訳（メタデータ） (2020-08-10T06:07:52Z)
One-step regression and classification with crosspoint resistive memory arrays [62.997667081978825]
高速で低エネルギーのコンピュータは、エッジでリアルタイム人工知能を実現するために要求されている。ワンステップ学習は、ボストンの住宅のコスト予測と、MNIST桁認識のための2層ニューラルネットワークのトレーニングによって支援される。結果は、クロスポイントアレイ内の物理計算、並列計算、アナログ計算のおかげで、1つの計算ステップで得られる。
論文参考訳（メタデータ） (2020-05-05T08:00:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。