Fugu-MT 論文翻訳(概要): STT-RAM-based Hierarchical In-Memory Computing

論文の概要: STT-RAM-based Hierarchical In-Memory Computing

arxiv url: http://arxiv.org/abs/2407.19637v1
Date: Mon, 29 Jul 2024 01:43:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-30 15:25:50.045155
Title: STT-RAM-based Hierarchical In-Memory Computing
Title（参考訳）: STT-RAMを用いた階層型インメモリコンピューティング
Authors: Dhruv Gajaria, Kevin Antony Gomez, Tosiron Adegbija,
Abstract要約: インメモリコンピューティングは、メモリ内で直接計算を行うことで、コンピュータシステムにおけるフォン・ノイマンのボトルネックを克服することを約束する。これまでの研究では、非揮発性、低リーク電力、高密度、耐久性、商業的生存性などの理由から、インメモリコンピューティングにSpin-Transfer Torque RAM(STT-RAM)を使うことが提案されている。本稿では、メモリ階層の異なるレベルを処理要素で拡張し、ワークロード実行を最適化する階層型インメモリコンピューティングについて検討する。
参考スコア（独自算出の注目度）: 1.1470070927586018
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In-memory computing promises to overcome the von Neumann bottleneck in computer systems by performing computations directly within the memory. Previous research has suggested using Spin-Transfer Torque RAM (STT-RAM) for in-memory computing due to its non-volatility, low leakage power, high density, endurance, and commercial viability. This paper explores hierarchical in-memory computing, where different levels of the memory hierarchy are augmented with processing elements to optimize workload execution. The paper investigates processing in memory (PiM) using non-volatile STT-RAM and processing in cache (PiC) using volatile STT-RAM with relaxed retention, which helps mitigate STT-RAM's write latency and energy overheads. We analyze tradeoffs and overheads associated with data movement for PiC versus write overheads for PiM using STT-RAMs for various workloads. We examine workload characteristics, such as computational intensity and CPU-dependent workloads with limited instruction-level parallelism, and their impact on PiC/PiM tradeoffs. Using these workloads, we evaluate computing in STT-RAM versus SRAM at different cache hierarchy levels and explore the potential of heterogeneous STT-RAM cache architectures with various retention times for PiC and CPU-based computing. Our experiments reveal significant advantages of STT-RAM-based PiC over PiM for specific workloads. Finally, we describe open research problems in hierarchical in-memory computing architectures to further enhance this paradigm.
Abstract（参考訳）: インメモリコンピューティングは、メモリ内で直接計算を行うことで、コンピュータシステムにおけるフォン・ノイマンのボトルネックを克服することを約束する。これまでの研究では、非揮発性、低リーク電力、高密度、耐久性、商業的生存性などの理由から、インメモリコンピューティングにSpin-Transfer Torque RAM(STT-RAM)を使うことが提案されている。本稿では、メモリ階層の異なるレベルを処理要素で拡張し、ワークロード実行を最適化する階層型インメモリコンピューティングについて検討する。本稿では,不揮発性 STT-RAM を用いたメモリ(PiM)の処理と,不揮発性 STT-RAM によるキャッシュ(PiC)の処理について検討する。我々は、様々なワークロードでSTT-RAMを使用して、PiCのデータ移動に伴うトレードオフとオーバーヘッドと、PiMの書き込みオーバーヘッドを分析した。本稿では,命令レベルの並列性に制限のある計算強度やCPU依存ワークロードなどのワークロード特性と,PiC/PiMトレードオフへの影響について検討する。これらのワークロードを用いて、異なるキャッシュ階層レベルでのSTT-RAMとSRAMの計算を評価し、PiCおよびCPUベースの計算に様々な保持時間を持つ異種STT-RAMキャッシュアーキテクチャの可能性を探る。実験により,特定のワークロードに対して,STT-RAMをベースとしたPiCよりも優れたメリットが示された。最後に、このパラダイムをさらに強化するために、階層型インメモリコンピューティングアーキテクチャにおけるオープンな研究問題を述べる。

関連論文リスト

Hardware-software co-exploration with racetrack memory based in-memory computing for CNN inference in embedded systems [54.045712360156024]
レーストラックメモリは、データ密度の高い製造を可能にする不揮発性技術である。メモリセルを持つインメモリ演算回路は、メモリ密度と電力効率の両方に影響を与える。レーストラックメモリに最適化された効率的なインメモリ畳み込みニューラルネットワーク(CNN)アクセラレータを提案する。
論文参考訳（メタデータ） (2025-07-02T07:29:53Z)
Memory Layers at Scale [67.00854080570979]
この研究はメモリ層を概念実証以上のものにし、現代の規模でその有用性を証明している。ダウンストリームタスクでは、改善されたメモリ層で強化された言語モデルは、予算の2倍以上の高密度モデルよりも優れており、計算とパラメータの両方にマッチする場合の熟練モデルの混合も優れている。最大128Bのメモリパラメータを持つスケーリング法則を1兆トークンまで事前訓練し,最大8Bパラメータを持つベースモデルと比較した,完全な並列化可能なメモリレイヤの実装を提供する。
論文参考訳（メタデータ） (2024-12-12T23:56:57Z)
BitStack: Fine-Grained Size Control for Compressed Large Language Models in Variable Memory Environments [53.71158537264695]
大規模言語モデル(LLM)は、多くのアプリケーションに革命をもたらしたが、ローカルデバイスにおけるメモリ制限により、その展開は依然として困難である。 textbfBitStackは,メモリ使用量とモデル性能のトレードオフを可能にする,新しいトレーニング不要な重み圧縮手法である。
論文参考訳（メタデータ） (2024-10-31T13:26:11Z)
CHIME: Energy-Efficient STT-RAM-based Concurrent Hierarchical In-Memory Processing [1.5566524830295307]
本稿では、新しいPiC/PiMアーキテクチャ、Concurrent Hierarchical In-Memory Processing(CHIME)を紹介する。 CHIMEは、メモリ階層の複数のレベルにわたる不均一な計算ユニットを戦略的に組み込む。実験の結果、最先端のビット線コンピューティングアプローチと比較して、CHIMEは57.95%と78.23%の大幅なスピードアップと省エネを実現していることがわかった。
論文参考訳（メタデータ） (2024-07-29T01:17:54Z)
vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文参考訳（メタデータ） (2024-07-22T14:37:58Z)
PyramidInfer: Pyramid KV Cache Compression for High-throughput LLM Inference [57.53291046180288]
大規模言語モデル(LLM)は、目覚ましい理解能力を示しているが、推論中のGPUメモリ使用の課題に直面している。本稿では,KVキャッシュを重要なコンテキストを階層的に保持することで圧縮するPraamidInferを提案する。 PyramidInferは、KVキャッシュで54%以上のGPUメモリを削減したAccelerateと比較して、2.2倍のスループットを改善している。
論文参考訳（メタデータ） (2024-05-21T06:46:37Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
Pex: Memory-efficient Microcontroller Deep Learning through Partial Execution [11.336229510791481]
マイクロコントローラ深層学習のための新しい実行パラダイムについて論じる。ニューラルネットワークの実行を変更して、メモリの完全なバッファーを作らないようにする。これは演算子のプロパティを利用することで実現され、一度にインプット/アウトプットのごく一部を消費/生産することができる。
論文参考訳（メタデータ） (2022-11-30T18:47:30Z)
NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。 LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文参考訳（メタデータ） (2022-06-28T20:13:40Z)
PIM-DRAM:Accelerating Machine Learning Workloads using Processing in Memory based on DRAM Technology [2.6168147530506958]
MLワークロードにおける行列ベクトル演算を高速化する処理インメモリ(PIM)プリミティブを提案する。提案したアーキテクチャ,マッピング,データフローは,GPUよりも最大で23倍,6.5倍のメリットが得られることを示す。
論文参考訳（メタデータ） (2021-05-08T16:39:24Z)
DeepNVM++: Cross-Layer Modeling and Optimization Framework of Non-Volatile Memories for Deep Learning [11.228806840123084]
スピントランスファートルク磁気ランダムアクセスメモリ(STT-MRAM)やスピン軌道トルク磁気ランダムアクセスメモリ(SOT-MRAM)のような非揮発性メモリ(NVM)技術は、従来の技術に比べて大きな利点がある。本研究では、ディープラーニング(DL)アプリケーションにおけるNVMベースのキャッシュを特徴づけ、モデル化し、分析するフレームワークであるDeepNVM++を紹介します。
論文参考訳（メタデータ） (2020-12-08T16:53:25Z)
In-memory Implementation of On-chip Trainable and Scalable ANN for AI/ML Applications [0.0]
本稿では,人工知能(AI)と機械学習(ML)アプリケーションを実現するための,ANNのためのインメモリコンピューティングアーキテクチャを提案する。我々の新しいオンチップトレーニングとインメモリアーキテクチャは、プリチャージサイクル当たりの配列の複数行を同時にアクセスすることで、エネルギーコストを削減し、スループットを向上させる。提案したアーキテクチャはIRISデータセットでトレーニングされ、以前の分類器と比較してMAC当たりのエネルギー効率が4,6倍に向上した。
論文参考訳（メタデータ） (2020-05-19T15:36:39Z)
Parallelising the Queries in Bucket Brigade Quantum RAM [69.43216268165402]
量子アルゴリズムは、しばしばデータベースのような方法で格納された情報にアクセスするために量子RAM(QRAM)を使用する。本稿では,Clifford+Tゲートの並列性を利用して,効率的なクエリ時間を大幅に短縮する手法を提案する。理論的には、フォールトトレラントバケットの量子RAMクエリは古典的なRAMの速度とほぼ一致する。
論文参考訳（メタデータ） (2020-02-21T14:50:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。