論文の概要: Heterogeneous Data-Centric Architectures for Modern Data-Intensive
Applications: Case Studies in Machine Learning and Databases
- arxiv url: http://arxiv.org/abs/2205.14664v1
- Date: Sun, 29 May 2022 13:43:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-04 12:36:45.090281
- Title: Heterogeneous Data-Centric Architectures for Modern Data-Intensive
Applications: Case Studies in Machine Learning and Databases
- Title(参考訳): 現代データ集約型アプリケーションのための異種データ中心アーキテクチャ--機械学習とデータベースのケーススタディ
- Authors: Geraldo F. Oliveira and Amirali Boroumand and Saugata Ghose and Juan
G\'omez-Luna and Onur Mutlu
- Abstract要約: Processing-in-Memory(PIM)は、現代のアプリケーションにおけるデータ移動のボトルネックを軽減する、有望な実行パラダイムである。
本稿では,2つの現代的なデータ集約型アプリケーションに対して,PIMパラダイムの活用方法を示す。
- 参考スコア(独自算出の注目度): 9.927754948343326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Today's computing systems require moving data back-and-forth between
computing resources (e.g., CPUs, GPUs, accelerators) and off-chip main memory
so that computation can take place on the data. Unfortunately, this data
movement is a major bottleneck for system performance and energy consumption.
One promising execution paradigm that alleviates the data movement bottleneck
in modern and emerging applications is processing-in-memory (PIM), where the
cost of data movement to/from main memory is reduced by placing computation
capabilities close to memory.
Naively employing PIM to accelerate data-intensive workloads can lead to
sub-optimal performance due to the many design constraints PIM substrates
impose. Therefore, many recent works co-design specialized PIM accelerators and
algorithms to improve performance and reduce the energy consumption of (i)
applications from various application domains; and (ii) various computing
environments, including cloud systems, mobile systems, and edge devices.
We showcase the benefits of co-designing algorithms and hardware in a way
that efficiently takes advantage of the PIM paradigm for two modern
data-intensive applications: (1) machine learning inference models for edge
devices and (2) hybrid transactional/analytical processing databases for cloud
systems. We follow a two-step approach in our system design. In the first step,
we extensively analyze the computation and memory access patterns of each
application to gain insights into its hardware/software requirements and major
sources of performance and energy bottlenecks in processor-centric systems. In
the second step, we leverage the insights from the first step to co-design
algorithms and hardware accelerators to enable high-performance and
energy-efficient data-centric architectures for each application.
- Abstract(参考訳): 今日のコンピューティングシステムでは、計算リソース(CPU、GPU、アクセラレータなど)とオフチップのメインメモリの間でデータを移動させ、データ上で計算を行う必要がある。
残念ながら、このデータ移動はシステム性能とエネルギー消費の大きなボトルネックとなっている。
現代の新興アプリケーションにおけるデータ移動のボトルネックを緩和する有望な実行パラダイムの1つが processing-in-memory (pim) である。
データ集約的なワークロードを加速するためにPIMをネイティブに採用することは、PIM基板が課す多くの設計制約のために、最適以下のパフォーマンスをもたらす可能性がある。
そのため、近年の多くの研究がPIMアクセラレーターとアルゴリズムを共同設計し、性能の向上とエネルギー消費の削減を図っている。
(i)各種出願ドメインからの出願、及び
(i)クラウドシステム、モバイルシステム、エッジデバイスを含む様々なコンピューティング環境。
我々は,(1)エッジデバイス向け機械学習推論モデル,(2)クラウドシステム用ハイブリッドトランザクション/分析処理データベースの2つの近代データ集約型アプリケーションにおいて,PIMパラダイムを効果的に活用する,協調設計アルゴリズムとハードウェアの利点を紹介する。
我々はシステム設計における2段階のアプローチに従う。
最初のステップでは、各アプリケーションの計算およびメモリアクセスパターンを広範囲に分析し、ハードウェア/ソフトウェア要件とプロセッサ中心システムにおけるパフォーマンスおよびエネルギーボトルネックの主な原因について洞察を得る。
第2ステップでは,第1ステップからの洞察を,アルゴリズムとハードウェアアクセラレータの共同設計に活用して,アプリケーション毎に高性能でエネルギー効率の高いデータ中心アーキテクチャを実現する。
関連論文リスト
- CHIME: Energy-Efficient STT-RAM-based Concurrent Hierarchical In-Memory Processing [1.5566524830295307]
本稿では、新しいPiC/PiMアーキテクチャ、Concurrent Hierarchical In-Memory Processing(CHIME)を紹介する。
CHIMEは、メモリ階層の複数のレベルにわたる不均一な計算ユニットを戦略的に組み込む。
実験の結果、最先端のビット線コンピューティングアプローチと比較して、CHIMEは57.95%と78.23%の大幅なスピードアップと省エネを実現していることがわかった。
論文 参考訳(メタデータ) (2024-07-29T01:17:54Z) - OPIMA: Optical Processing-In-Memory for Convolutional Neural Network Acceleration [5.0389804644646174]
我々は,処理インメモリ(PIM)ベースの機械学習アクセラレータであるOPIMAを紹介する。
PIMは、内部データ移動のボトルネックのため、高いスループットとエネルギー効率を達成するのに苦労している。
我々は,OPIMAのスループットが2.98倍,エネルギー効率が137倍であることを示す。
論文 参考訳(メタデータ) (2024-07-11T06:12:04Z) - Memory Is All You Need: An Overview of Compute-in-Memory Architectures for Accelerating Large Language Model Inference [2.9302211589186244]
大規模言語モデル(LLM)は自然言語処理を変換し、機械が人間のようなテキストを生成し、意味のある会話を行うことを可能にする。
計算と記憶能力の発達はムーアの法則の廃止によってさらに悪化している。
コンピュート・イン・メモリ(CIM)技術は、メモリ内でアナログ計算を直接実行することにより、AI推論を加速するための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-06-12T16:57:58Z) - Efficient and accurate neural field reconstruction using resistive memory [52.68088466453264]
デジタルコンピュータにおける従来の信号再構成手法は、ソフトウェアとハードウェアの両方の課題に直面している。
本稿では,スパース入力からの信号再構成のためのソフトウェア・ハードウェア協調最適化を用いた体系的アプローチを提案する。
この研究は、AI駆動の信号復元技術を進歩させ、将来の効率的で堅牢な医療AIと3Dビジョンアプリケーションへの道を開く。
論文 参考訳(メタデータ) (2024-04-15T09:33:09Z) - PIM-Opt: Demystifying Distributed Optimization Algorithms on a Real-World Processing-In-Memory System [21.09681871279162]
大規模データセットに対するモダン機械学習(ML)トレーニングは、時間を要する作業量である。
最適化アルゴリズムであるGradient Descent (SGD) は、その効率性、単純さ、一般化性能に頼っている。
プロセッサ中心のアーキテクチャは、MLトレーニングワークロードの実行中に低パフォーマンスと高エネルギー消費に悩まされる。
Processing-In-Memory(PIM)は、データ移動のボトルネックを軽減するための有望なソリューションである。
論文 参考訳(メタデータ) (2024-04-10T17:00:04Z) - Random resistive memory-based deep extreme point learning machine for
unified visual processing [67.51600474104171]
ハードウェア・ソフトウェア共同設計型, ランダム抵抗型メモリベース深部極点学習マシン(DEPLM)を提案する。
我々の共同設計システムは,従来のシステムと比較して,エネルギー効率の大幅な向上とトレーニングコストの削減を実現している。
論文 参考訳(メタデータ) (2023-12-14T09:46:16Z) - Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z) - Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural
Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。
これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。
そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文 参考訳(メタデータ) (2022-09-27T15:04:01Z) - Machine Learning Training on a Real Processing-in-Memory System [9.286176889576996]
機械学習アルゴリズムのトレーニングは計算集約的なプロセスであり、しばしばメモリバウンドである。
メモリ内処理機能を備えたメモリ中心のコンピューティングシステムは、このデータ移動ボトルネックを軽減することができる。
我々の研究は、現実世界の汎用PIMアーキテクチャ上で機械学習アルゴリズムのトレーニングを評価する最初のものである。
論文 参考訳(メタデータ) (2022-06-13T10:20:23Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z) - One-step regression and classification with crosspoint resistive memory
arrays [62.997667081978825]
高速で低エネルギーのコンピュータは、エッジでリアルタイム人工知能を実現するために要求されている。
ワンステップ学習は、ボストンの住宅のコスト予測と、MNIST桁認識のための2層ニューラルネットワークのトレーニングによって支援される。
結果は、クロスポイントアレイ内の物理計算、並列計算、アナログ計算のおかげで、1つの計算ステップで得られる。
論文 参考訳(メタデータ) (2020-05-05T08:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。