論文の概要: Mitigating the Memory Bottleneck with Machine Learning-Driven and Data-Aware Microarchitectural Techniques
- arxiv url: http://arxiv.org/abs/2603.07683v1
- Date: Sun, 08 Mar 2026 15:34:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.021455
- Title: Mitigating the Memory Bottleneck with Machine Learning-Driven and Data-Aware Microarchitectural Techniques
- Title(参考訳): 機械学習とデータ認識によるマイクロアーキテクチャ技術によるメモリブートネックのマイグレーション
- Authors: Rahul Bera,
- Abstract要約: 論文によると、現代のプロセッサは実行中に大量のアプリケーションとシステムデータを観測している。
このようなデータに依存しない設計は、性能とエネルギー効率を向上する大きな機会を逃してしまうことを実証する。
本稿では,観察された実行行動からポリシーを学習し,アプリケーションデータのセマンティックな特徴を活用するメカニズムを提案する。
- 参考スコア(独自算出の注目度): 0.5701997979067353
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern applications process massive data volumes that overwhelm the storage and retrieval capabilities of memory systems, making memory the primary performance and energy-efficiency bottleneck of computing systems. Although many microarchitectural techniques attempt to hide or tolerate long memory access latency, rapidly growing data footprints continue to outpace technology scaling, requiring more effective solutions. This dissertation shows that modern processors observe large amounts of application and system data during execution, yet many microarchitectural mechanisms make decisions largely independent of this information. Through four case studies, we demonstrate that such data-agnostic design leads to substantial missed opportunities for improving performance and energy efficiency. To address this limitation, this dissertation advocates shifting microarchitecture design from data-agnostic to data-informed. We propose mechanisms that (1) learn policies from observed execution behavior (data-driven design) and (2) exploit semantic characteristics of application data (data-aware design). We apply lightweight machine learning techniques and previously underexplored data characteristics across four processor components: a reinforcement learning-based hardware data prefetcher that learns memory access patterns online; a perceptron predictor that identifies memory requests likely to access off-chip memory; a reinforcement learning mechanism that coordinates data prefetching and off-chip prediction; and a mechanism that exploits repeatability in memory addresses and loaded values to eliminate predictable load instructions. Our extensive evaluation shows that the proposed techniques significantly improve performance and energy efficiency compared to prior state-of-the-art approaches.
- Abstract(参考訳): 現代のアプリケーションは、メモリシステムのストレージと検索能力を圧倒する巨大なデータボリュームを処理し、メモリをコンピュータシステムの主要な性能とエネルギー効率のボトルネックにする。
多くのマイクロアーキテクチャ技術は、長いメモリアクセス遅延を隠蔽または許容しようとするが、急速に増大するデータフットプリントは、テクノロジのスケーリングを上回り続け、より効率的なソリューションを必要としている。
この論文は、現代のプロセッサが実行中に大量のアプリケーションやシステムデータを観測していることを示しているが、多くのマイクロアーキテクチャメカニズムがこの情報に大きく依存していることを示している。
4つのケーススタディを通じて、このようなデータに依存しない設計が、性能とエネルギー効率を改善するためのかなりの機会を逃すことを示した。
この制限に対処するため、この論文はマイクロアーキテクチャ設計をデータに依存しないものからデータインフォームドにシフトすることを提唱している。
本研究では,(1)観察された実行行動(データ駆動設計)からポリシーを学習し,(2)アプリケーションデータのセマンティック特性(データ認識設計)を活用するメカニズムを提案する。
我々は、軽量な機械学習技術と、以前探索された4つのプロセッサコンポーネントにまたがるデータ特性を適用している: メモリアクセスパターンをオンラインで学習する強化学習ベースのハードウェアデータプレファタ、オフチップメモリにアクセスしやすいメモリ要求を識別するパーセプトロン予測器、データプリフェッチとオフチップ予測を調整する強化学習機構、メモリアドレスの繰り返し可能性とロードされた値を利用して予測可能な負荷命令を除去するメカニズム。
提案手法は, 従来の最先端手法と比較して, 性能とエネルギー効率を著しく向上することを示す。
関連論文リスト
- MemOS: A Memory OS for AI System [116.87568350346537]
大規模言語モデル(LLM)は、人工知能(AGI)にとって不可欠な基盤となっている。
既存のモデルは、主に静的パラメータと短命なコンテキスト状態に依存しており、ユーザの好みを追跡したり、長い期間にわたって知識を更新する能力を制限する。
MemOSはメモリを管理可能なシステムリソースとして扱うメモリオペレーティングシステムである。
論文 参考訳(メタデータ) (2025-07-04T17:21:46Z) - Dynamic Adaptation in Data Storage: Real-Time Machine Learning for Enhanced Prefetching [40.13303683102544]
本研究は,マルチ階層ストレージシステムにおけるデータプレフェッチングの革命に,ストリーミング機械学習の適用について検討する。
従来のバッチトレーニングモデルとは異なり、ストリーミング機械学習は適応性、リアルタイム洞察、計算効率を提供する。
論文 参考訳(メタデータ) (2024-12-29T17:39:37Z) - Efficient and accurate neural field reconstruction using resistive memory [52.68088466453264]
デジタルコンピュータにおける従来の信号再構成手法は、ソフトウェアとハードウェアの両方の課題に直面している。
本稿では,スパース入力からの信号再構成のためのソフトウェア・ハードウェア協調最適化を用いた体系的アプローチを提案する。
この研究は、AI駆動の信号復元技術を進歩させ、将来の効率的で堅牢な医療AIと3Dビジョンアプリケーションへの道を開く。
論文 参考訳(メタデータ) (2024-04-15T09:33:09Z) - Bullion: A Column Store for Machine Learning [4.096087402737292]
本稿では,機械学習処理に適した列記憶システムであるBullionについて述べる。
Bundyはデータコンプライアンスの複雑さに対処し、長いシーケンススパース機能のエンコーディングを最適化し、拡張可能なプロジェクションを効率的に管理し、ストレージに機能量子化を導入し、包括的なカスケードエンコーディングフレームワークを提供する。
予備的な実験結果と理論的分析は、機械学習ワークロードのユニークな要求に直面して、Bullionが強力なパフォーマンスを提供する能力が改善されたことを示している。
論文 参考訳(メタデータ) (2024-04-13T05:01:54Z) - Random resistive memory-based deep extreme point learning machine for
unified visual processing [67.51600474104171]
ハードウェア・ソフトウェア共同設計型, ランダム抵抗型メモリベース深部極点学習マシン(DEPLM)を提案する。
我々の共同設計システムは,従来のシステムと比較して,エネルギー効率の大幅な向上とトレーニングコストの削減を実現している。
論文 参考訳(メタデータ) (2023-12-14T09:46:16Z) - Computation-efficient Deep Learning for Computer Vision: A Survey [121.84121397440337]
ディープラーニングモデルは、さまざまな視覚的知覚タスクにおいて、人間レベルのパフォーマンスに到達または超えた。
ディープラーニングモデルは通常、重要な計算資源を必要とし、現実のシナリオでは非現実的な電力消費、遅延、または二酸化炭素排出量につながる。
新しい研究の焦点は計算効率のよいディープラーニングであり、推論時の計算コストを最小限に抑えつつ、良好な性能を達成することを目指している。
論文 参考訳(メタデータ) (2023-08-27T03:55:28Z) - Machine Learning Training on a Real Processing-in-Memory System [9.286176889576996]
機械学習アルゴリズムのトレーニングは計算集約的なプロセスであり、しばしばメモリバウンドである。
メモリ内処理機能を備えたメモリ中心のコンピューティングシステムは、このデータ移動ボトルネックを軽減することができる。
我々の研究は、現実世界の汎用PIMアーキテクチャ上で機械学習アルゴリズムのトレーニングを評価する最初のものである。
論文 参考訳(メタデータ) (2022-06-13T10:20:23Z) - Heterogeneous Data-Centric Architectures for Modern Data-Intensive
Applications: Case Studies in Machine Learning and Databases [9.927754948343326]
Processing-in-Memory(PIM)は、現代のアプリケーションにおけるデータ移動のボトルネックを軽減する、有望な実行パラダイムである。
本稿では,2つの現代的なデータ集約型アプリケーションに対して,PIMパラダイムの活用方法を示す。
論文 参考訳(メタデータ) (2022-05-29T13:43:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。