論文の概要: Heterogeneous Data-Centric Architectures for Modern Data-Intensive
Applications: Case Studies in Machine Learning and Databases
- arxiv url: http://arxiv.org/abs/2205.14664v1
- Date: Sun, 29 May 2022 13:43:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-04 12:36:45.090281
- Title: Heterogeneous Data-Centric Architectures for Modern Data-Intensive
Applications: Case Studies in Machine Learning and Databases
- Title(参考訳): 現代データ集約型アプリケーションのための異種データ中心アーキテクチャ--機械学習とデータベースのケーススタディ
- Authors: Geraldo F. Oliveira and Amirali Boroumand and Saugata Ghose and Juan
G\'omez-Luna and Onur Mutlu
- Abstract要約: Processing-in-Memory(PIM)は、現代のアプリケーションにおけるデータ移動のボトルネックを軽減する、有望な実行パラダイムである。
本稿では,2つの現代的なデータ集約型アプリケーションに対して,PIMパラダイムの活用方法を示す。
- 参考スコア(独自算出の注目度): 9.927754948343326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Today's computing systems require moving data back-and-forth between
computing resources (e.g., CPUs, GPUs, accelerators) and off-chip main memory
so that computation can take place on the data. Unfortunately, this data
movement is a major bottleneck for system performance and energy consumption.
One promising execution paradigm that alleviates the data movement bottleneck
in modern and emerging applications is processing-in-memory (PIM), where the
cost of data movement to/from main memory is reduced by placing computation
capabilities close to memory.
Naively employing PIM to accelerate data-intensive workloads can lead to
sub-optimal performance due to the many design constraints PIM substrates
impose. Therefore, many recent works co-design specialized PIM accelerators and
algorithms to improve performance and reduce the energy consumption of (i)
applications from various application domains; and (ii) various computing
environments, including cloud systems, mobile systems, and edge devices.
We showcase the benefits of co-designing algorithms and hardware in a way
that efficiently takes advantage of the PIM paradigm for two modern
data-intensive applications: (1) machine learning inference models for edge
devices and (2) hybrid transactional/analytical processing databases for cloud
systems. We follow a two-step approach in our system design. In the first step,
we extensively analyze the computation and memory access patterns of each
application to gain insights into its hardware/software requirements and major
sources of performance and energy bottlenecks in processor-centric systems. In
the second step, we leverage the insights from the first step to co-design
algorithms and hardware accelerators to enable high-performance and
energy-efficient data-centric architectures for each application.
- Abstract(参考訳): 今日のコンピューティングシステムでは、計算リソース(CPU、GPU、アクセラレータなど)とオフチップのメインメモリの間でデータを移動させ、データ上で計算を行う必要がある。
残念ながら、このデータ移動はシステム性能とエネルギー消費の大きなボトルネックとなっている。
現代の新興アプリケーションにおけるデータ移動のボトルネックを緩和する有望な実行パラダイムの1つが processing-in-memory (pim) である。
データ集約的なワークロードを加速するためにPIMをネイティブに採用することは、PIM基板が課す多くの設計制約のために、最適以下のパフォーマンスをもたらす可能性がある。
そのため、近年の多くの研究がPIMアクセラレーターとアルゴリズムを共同設計し、性能の向上とエネルギー消費の削減を図っている。
(i)各種出願ドメインからの出願、及び
(i)クラウドシステム、モバイルシステム、エッジデバイスを含む様々なコンピューティング環境。
我々は,(1)エッジデバイス向け機械学習推論モデル,(2)クラウドシステム用ハイブリッドトランザクション/分析処理データベースの2つの近代データ集約型アプリケーションにおいて,PIMパラダイムを効果的に活用する,協調設計アルゴリズムとハードウェアの利点を紹介する。
我々はシステム設計における2段階のアプローチに従う。
最初のステップでは、各アプリケーションの計算およびメモリアクセスパターンを広範囲に分析し、ハードウェア/ソフトウェア要件とプロセッサ中心システムにおけるパフォーマンスおよびエネルギーボトルネックの主な原因について洞察を得る。
第2ステップでは,第1ステップからの洞察を,アルゴリズムとハードウェアアクセラレータの共同設計に活用して,アプリケーション毎に高性能でエネルギー効率の高いデータ中心アーキテクチャを実現する。
関連論文リスト
- Random resistive memory-based deep extreme point learning machine for
unified visual processing [67.51600474104171]
ハードウェア・ソフトウェア共同設計型, ランダム抵抗型メモリベース深部極点学習マシン(DEPLM)を提案する。
我々の共同設計システムは,従来のシステムと比較して,エネルギー効率の大幅な向上とトレーニングコストの削減を実現している。
論文 参考訳(メタデータ) (2023-12-14T09:46:16Z) - Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the
Ugly [66.19763977571114]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural
Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。
これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。
そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文 参考訳(メタデータ) (2022-09-27T15:04:01Z) - An Experimental Evaluation of Machine Learning Training on a Real
Processing-in-Memory System [9.429605859159023]
機械学習(ML)アルゴリズムのトレーニングは、計算集約的なプロセスであり、しばしばメモリバウンドである。
メモリ内の処理能力を備えたメモリ中心のコンピューティングシステムは、このデータ移動ボトルネックを軽減することができる。
実世界の汎用PIMアーキテクチャ上で,いくつかの代表的古典的MLアルゴリズムを実装した。
論文 参考訳(メタデータ) (2022-07-16T09:39:53Z) - Machine Learning Training on a Real Processing-in-Memory System [9.286176889576996]
機械学習アルゴリズムのトレーニングは計算集約的なプロセスであり、しばしばメモリバウンドである。
メモリ内処理機能を備えたメモリ中心のコンピューティングシステムは、このデータ移動ボトルネックを軽減することができる。
我々の研究は、現実世界の汎用PIMアーキテクチャ上で機械学習アルゴリズムのトレーニングを評価する最初のものである。
論文 参考訳(メタデータ) (2022-06-13T10:20:23Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z) - A Heterogeneous In-Memory Computing Cluster For Flexible End-to-End
Inference of Real-World Deep Neural Networks [12.361842554233558]
最新のTinyMLタスクを小さなバッテリに制約されたIoTデバイスにデプロイするには、高い計算エネルギー効率が必要である。
非揮発性メモリ(NVM)を使用したアナログメモリコンピューティング(IMC)は、ディープニューラルネットワーク(DNN)推論の大幅な効率向上を実現する。
8つのRISC-Vコア、インメモリ・コンピューティング・アクセラレータ(IMA)、デジタル・アクセラレータを統合した異種密結合アーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-01-04T11:12:01Z) - Resistive Neural Hardware Accelerators [0.46198289193451136]
ReRAMベースのインメモリコンピューティングは、領域と電力効率のよい推論の実装において大きな可能性を秘めている。
ReRAMベースのインメモリコンピューティングへの移行は、領域と電力効率のよい推論の実装において大きな可能性を秘めている。
本稿では,最先端のReRAMベースディープニューラルネットワーク(DNN)多コアアクセラレータについて概説する。
論文 参考訳(メタデータ) (2021-09-08T21:11:48Z) - Continual Learning Approach for Improving the Data and Computation
Mapping in Near-Memory Processing System [3.202860612193139]
ページと計算再マッピングによるデータ配置とリソース活用を最適化する人工知能メモリマッピング方式であるAIMMを提案する。
AIMMはニューラルネットワークを使用して、強化学習アルゴリズムを使用して訓練された実行中にほぼ最適なマッピングを実現します。
本研究では,AIMMが単一および複数プログラムシナリオにおけるベースラインNMP性能を最大70%と50%向上させたことを評価した。
論文 参考訳(メタデータ) (2021-04-28T09:50:35Z) - One-step regression and classification with crosspoint resistive memory
arrays [62.997667081978825]
高速で低エネルギーのコンピュータは、エッジでリアルタイム人工知能を実現するために要求されている。
ワンステップ学習は、ボストンの住宅のコスト予測と、MNIST桁認識のための2層ニューラルネットワークのトレーニングによって支援される。
結果は、クロスポイントアレイ内の物理計算、並列計算、アナログ計算のおかげで、1つの計算ステップで得られる。
論文 参考訳(メタデータ) (2020-05-05T08:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。