論文の概要: Managed-Retention Memory: A New Class of Memory for the AI Era
- arxiv url: http://arxiv.org/abs/2501.09605v1
- Date: Thu, 16 Jan 2025 15:25:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:09:13.430769
- Title: Managed-Retention Memory: A New Class of Memory for the AI Era
- Title(参考訳): マネージドリテンションメモリ:AI時代の新しいクラスのメモリ
- Authors: Sergey Legtchenko, Ioan Stefanovici, Richard Black, Antony Rowstron, Junyi Liu, Paolo Costa, Burcu Canakci, Dushyanth Narayanan, Xingbo Wu,
- Abstract要約: Managed-Retention Memory(MRM)は、AI推論ワークロードのキーデータ構造を格納するように最適化されている。
MRMはさまざまなトレードオフを行い、ワークロードのIOパターンを理解することによって、長期的なデータ保持と書き込みパフォーマンスを予見し、これらのワークロードの重要なメトリクスのパフォーマンスを向上させる。
- 参考スコア(独自算出の注目度): 1.8494892349829377
- License:
- Abstract: AI clusters today are one of the major uses of High Bandwidth Memory (HBM). However, HBM is suboptimal for AI workloads for several reasons. Analysis shows HBM is overprovisioned on write performance, but underprovisioned on density and read bandwidth, and also has significant energy per bit overheads. It is also expensive, with lower yield than DRAM due to manufacturing complexity. We propose a new memory class: Managed-Retention Memory (MRM), which is more optimized to store key data structures for AI inference workloads. We believe that MRM may finally provide a path to viability for technologies that were originally proposed to support Storage Class Memory (SCM). These technologies traditionally offered long-term persistence (10+ years) but provided poor IO performance and/or endurance. MRM makes different trade-offs, and by understanding the workload IO patterns, MRM foregoes long-term data retention and write performance for better potential performance on the metrics important for these workloads.
- Abstract(参考訳): 今日のAIクラスタは、High Bandwidth Memory(HBM)の主要な使用例の1つである。
しかし、HBMはいくつかの理由でAIワークロードに最適化されている。
解析によると、HBMは書き込み性能では過剰にプロビジョンされているが、密度と読み出し帯域幅では過大にプロビジョンされている。
コストも高く、製造の複雑さからDRAMよりも低収率である。
我々は新しいメモリクラスであるManaged-Retention Memory (MRM)を提案する。
MRMは、SCM(Storage Class Memory)をサポートするために提案された技術に対して、ようやく生存性への道を提供するかもしれないと考えています。
これらの技術は伝統的に長期持続性(10年以上)を提供するが、IOパフォーマンスや持続性は劣っていた。
MRMはさまざまなトレードオフを行い、ワークロードのIOパターンを理解することによって、長期的なデータ保持と書き込みパフォーマンスを予見し、これらのワークロードにとって重要なメトリクスのパフォーマンスを向上させる。
関連論文リスト
- Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - OPIMA: Optical Processing-In-Memory for Convolutional Neural Network Acceleration [5.0389804644646174]
我々は,処理インメモリ(PIM)ベースの機械学習アクセラレータであるOPIMAを紹介する。
PIMは、内部データ移動のボトルネックのため、高いスループットとエネルギー効率を達成するのに苦労している。
我々は,OPIMAのスループットが2.98倍,エネルギー効率が137倍であることを示す。
論文 参考訳(メタデータ) (2024-07-11T06:12:04Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。
B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文 参考訳(メタデータ) (2024-07-08T18:41:01Z) - UpDLRM: Accelerating Personalized Recommendation using Real-World PIM Architecture [6.5386984667643695]
UpDLRMは、実際のプロセッシングインメモリハードウェアであるUPPMEM DPUを使用して、メモリ帯域幅を拡大し、レコメンデーションレイテンシを低減する。
UpDLRMは、CPU専用とCPU-GPUハイブリッドの両方と比較してDLRMの推論時間を大幅に短縮する。
論文 参考訳(メタデータ) (2024-06-20T02:20:21Z) - Efficient and accurate neural field reconstruction using resistive memory [52.68088466453264]
デジタルコンピュータにおける従来の信号再構成手法は、ソフトウェアとハードウェアの両方の課題に直面している。
本稿では,スパース入力からの信号再構成のためのソフトウェア・ハードウェア協調最適化を用いた体系的アプローチを提案する。
この研究は、AI駆動の信号復元技術を進歩させ、将来の効率的で堅牢な医療AIと3Dビジョンアプリケーションへの道を開く。
論文 参考訳(メタデータ) (2024-04-15T09:33:09Z) - DAISM: Digital Approximate In-SRAM Multiplier-based Accelerator for DNN
Training and Inference [4.718504401468233]
PIMソリューションは、まだ成熟していない新しいメモリ技術か、パフォーマンス上のオーバーヘッドとスケーラビリティの問題のあるビットシリアル計算に依存している。
本稿では,従来のメモリを用いてビット並列計算を行い,複数のワードラインのアクティベーションを利用する,SRAM内デジタル乗算器を提案する。
次に、この乗算器を利用したアーキテクチャであるDAISMを導入し、SOTAと比較して最大2桁高い面積効率を実現し、競争エネルギー効率を向上する。
論文 参考訳(メタデータ) (2023-05-12T10:58:21Z) - CAMEL: Co-Designing AI Models and Embedded DRAMs for Efficient On-Device
Learning [8.339901980070616]
リソース制限されたデバイスでのAIのトレーニングは、コンピューティングワークロードの要求と、ディープニューラルネットワーク(DNN)が必要とするメモリ消費とデータアクセスの大幅な増加により、大きな課題となる。
過渡学習データのための一次記憶媒体として,組込み動的ランダムアクセスメモリ(eDRAM)を提案する。
我々は,eDRAMをプライマリオンチップメモリとして活用する,TextitCAMELという,高効率なオンデバイストレーニングエンジンを提案する。
論文 参考訳(メタデータ) (2023-05-04T20:57:01Z) - Learning to Rank Graph-based Application Objects on Heterogeneous
Memories [0.0]
本稿では,アプリケーションの性能に最も影響を与えるアプリケーションオブジェクトを識別し,特徴付ける手法について述べる。
予測モデルを用いてデータ配置を行うことで,ベースラインのアプローチと比較して,実行時間の劣化を12% (平均) および30% (最大) 削減することができる。
論文 参考訳(メタデータ) (2022-11-04T00:20:31Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z) - Optimizing Deep Learning Recommender Systems' Training On CPU Cluster
Architectures [56.69373580921888]
クラウドコンピューティングセンターのAIサイクルの大部分を占めるRecommender Systemsに注目します。
HPC用に調整された最新のCPUハードウェアとソフトウェア上で動作可能にすることで、パフォーマンスの2桁以上の改善を達成できます。
論文 参考訳(メタデータ) (2020-05-10T14:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。