Fugu-MT 論文翻訳(概要): GradPIM: A Practical Processing-in-DRAM Architecture for Gradient Descent

論文の概要: GradPIM: A Practical Processing-in-DRAM Architecture for Gradient Descent

arxiv url: http://arxiv.org/abs/2102.07511v1
Date: Mon, 15 Feb 2021 12:25:26 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-16 15:13:14.660889
Title: GradPIM: A Practical Processing-in-DRAM Architecture for Gradient Descent
Title（参考訳）: GradPIM: グラディエントDescentのための実用的なDRAMアーキテクチャ
Authors: Heesu Kim, Hanmin Park, Taehyun Kim, Kwanheum Cho, Eojin Lee, Soojung Ryu, Hyuk-Jae Lee, Kiyoung Choi, Jinho Lee
Abstract要約: 本稿では,ディープニューラルネットワークトレーニングのパラメータ更新を高速化するメモリ内処理アーキテクチャGradPIMを提案する。 DDR4 SDRAMをバンクグループ並列性に拡張することで、ハードウェアコストと性能の観点から、PIMモジュールでの動作設計を効率化できる。
参考スコア（独自算出の注目度）: 17.798991516056454
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we present GradPIM, a processing-in-memory architecture which accelerates parameter updates of deep neural networks training. As one of processing-in-memory techniques that could be realized in the near future, we propose an incremental, simple architectural design that does not invade the existing memory protocol. Extending DDR4 SDRAM to utilize bank-group parallelism makes our operation designs in processing-in-memory (PIM) module efficient in terms of hardware cost and performance. Our experimental results show that the proposed architecture can improve the performance of DNN training and greatly reduce memory bandwidth requirement while posing only a minimal amount of overhead to the protocol and DRAM area.
Abstract（参考訳）: 本稿では,ディープニューラルネットワークトレーニングのパラメータ更新を高速化する処理インメモリアーキテクチャであるgradpimを提案する。近い将来に実現可能なメモリ処理技術の1つとして、既存のメモリプロトコルに侵入しないインクリメンタルでシンプルなアーキテクチャ設計を提案します。 DDR4 SDRAMをバンクグループ並列性に拡張することで、ハードウェアコストと性能の観点から、PIMモジュールでの動作設計を効率化できる。実験の結果,提案アーキテクチャはDNNトレーニングの性能を向上し,プロトコルやDRAM領域へのオーバーヘッドを最小限に抑えながら,メモリ帯域幅の要求を大幅に削減できることがわかった。

関連論文リスト

DRAMatic Speedup: Accelerating HE Operations on a Processing-in-Memory System [4.464102544889846]
ホモモルフィック暗号化(HE)は、機密クラウドコンピューティングのための有望な技術である。プロセッサ・イン・メモリ(Processing-in-Memory、PIM)は、プロセッサユニットとメモリを同じチップまたはメモリモジュールに統合する代替のハードウェアアーキテクチャである。 UPMEMのプログラム可能な汎用PIMシステム上で,HEの基本となる操作を実装したDRAMaticを提案する。
論文参考訳（メタデータ） (2026-02-12T21:45:15Z)
Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation [129.45368843861917]
我々は、レイヤ間の効率的なメモリ共有のためのシンプルで効果的なメカニズムであるGated Memory Unit(GMU)を紹介した。これは、GMUを組み込んでSambaベースのセルフデコーダからメモリ読み出し状態を共有するデコーダ・ハイブリッド・デコーダアーキテクチャである。
論文参考訳（メタデータ） (2025-07-09T07:27:00Z)
Hardware-software co-exploration with racetrack memory based in-memory computing for CNN inference in embedded systems [54.045712360156024]
レーストラックメモリは、データ密度の高い製造を可能にする不揮発性技術である。メモリセルを持つインメモリ演算回路は、メモリ密度と電力効率の両方に影響を与える。レーストラックメモリに最適化された効率的なインメモリ畳み込みニューラルネットワーク(CNN)アクセラレータを提案する。
論文参考訳（メタデータ） (2025-07-02T07:29:53Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。 B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文参考訳（メタデータ） (2024-07-08T18:41:01Z)
Topology-aware Embedding Memory for Continual Learning on Expanding Networks [63.35819388164267]
本稿では,メモリリプレイ技術を用いて,メモリ爆発問題に対処する枠組みを提案する。 Topology-aware Embedding Memory (TEM) を用いたPDGNNは最先端技術よりも優れている。
論文参考訳（メタデータ） (2024-01-24T03:03:17Z)
MCUFormer: Deploying Vision Transformers on Microcontrollers with Limited Memory [76.02294791513552]
我々はMCUFormerと呼ばれるハードウェア・アルゴリズムの協調最適化手法を提案し、メモリが極端に制限されたマイクロコントローラにビジョントランスフォーマーを配置する。 MCUFormerは320KBのメモリを持つ画像分類のためのImageNet上で73.62%のTop-1精度を実現している。
論文参考訳（メタデータ） (2023-10-25T18:00:26Z)
UniPT: Universal Parallel Tuning for Transfer Learning with Efficient Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文参考訳（メタデータ） (2023-08-28T05:38:43Z)
CAMEL: Co-Designing AI Models and Embedded DRAMs for Efficient On-Device Learning [8.339901980070616]
リソース制限されたデバイスでのAIのトレーニングは、コンピューティングワークロードの要求と、ディープニューラルネットワーク(DNN)が必要とするメモリ消費とデータアクセスの大幅な増加により、大きな課題となる。過渡学習データのための一次記憶媒体として,組込み動的ランダムアクセスメモリ(eDRAM)を提案する。我々は,eDRAMをプライマリオンチップメモリとして活用する,TextitCAMELという,高効率なオンデバイストレーニングエンジンを提案する。
論文参考訳（メタデータ） (2023-05-04T20:57:01Z)
Pex: Memory-efficient Microcontroller Deep Learning through Partial Execution [11.336229510791481]
マイクロコントローラ深層学習のための新しい実行パラダイムについて論じる。ニューラルネットワークの実行を変更して、メモリの完全なバッファーを作らないようにする。これは演算子のプロパティを利用することで実現され、一度にインプット/アウトプットのごく一部を消費/生産することができる。
論文参考訳（メタデータ） (2022-11-30T18:47:30Z)
Accelerating Neural Network Inference with Processing-in-DRAM: From the Edge to the Cloud [9.927754948343326]
ニューラルネットワークの性能(およびエネルギー効率)は、計算またはメモリリソースによって拘束できる。 PIM(Processing-in-Memory)パラダイムは、メモリバウンドNNを高速化する実行可能なソリューションである。 NN性能とエネルギー効率向上のための3つの最先端PIMアーキテクチャを解析する。
論文参考訳（メタデータ） (2022-09-19T11:46:05Z)
PIM-DRAM:Accelerating Machine Learning Workloads using Processing in Memory based on DRAM Technology [2.6168147530506958]
MLワークロードにおける行列ベクトル演算を高速化する処理インメモリ(PIM)プリミティブを提案する。提案したアーキテクチャ,マッピング,データフローは,GPUよりも最大で23倍,6.5倍のメリットが得られることを示す。
論文参考訳（メタデータ） (2021-05-08T16:39:24Z)
Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文参考訳（メタデータ） (2020-10-14T09:03:36Z)
In-memory Implementation of On-chip Trainable and Scalable ANN for AI/ML Applications [0.0]
本稿では,人工知能(AI)と機械学習(ML)アプリケーションを実現するための,ANNのためのインメモリコンピューティングアーキテクチャを提案する。我々の新しいオンチップトレーニングとインメモリアーキテクチャは、プリチャージサイクル当たりの配列の複数行を同時にアクセスすることで、エネルギーコストを削減し、スループットを向上させる。提案したアーキテクチャはIRISデータセットでトレーニングされ、以前の分類器と比較してMAC当たりのエネルギー効率が4,6倍に向上した。
論文参考訳（メタデータ） (2020-05-19T15:36:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。