論文の概要: Hermes: Accelerating Long-Latency Load Requests via Perceptron-Based
Off-Chip Load Prediction
- arxiv url: http://arxiv.org/abs/2209.00188v1
- Date: Thu, 1 Sep 2022 02:56:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 14:21:16.945580
- Title: Hermes: Accelerating Long-Latency Load Requests via Perceptron-Based
Off-Chip Load Prediction
- Title(参考訳): Hermes: パーセプトロンベースのオフチップ負荷予測による長時間負荷要求の高速化
- Authors: Rahul Bera, Konstantinos Kanellopoulos, Shankar Balachandran, David
Novo, Ataberk Olgun, Mohammad Sadrosadati, Onur Mutlu
- Abstract要約: オフチップ負荷要求を高速化するHermesと呼ばれる新しい手法を提案する。
Hermesは、どのロードリクエストがオフチップになるかを正確に予測し、予測されたオフチップロードに必要なデータを投機的にフェッチする。
Hermesは最先端のベースラインのパフォーマンスを大幅に向上させる。
- 参考スコア(独自算出の注目度): 8.80732571873339
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-latency load requests continue to limit the performance of
high-performance processors. To increase the latency tolerance of a processor,
architects have primarily relied on two key techniques: sophisticated data
prefetchers and large on-chip caches. In this work, we show that: 1) even a
sophisticated state-of-the-art prefetcher can only predict half of the off-chip
load requests on average across a wide range of workloads, and 2) due to the
increasing size and complexity of on-chip caches, a large fraction of the
latency of an off-chip load request is spent accessing the on-chip cache
hierarchy. The goal of this work is to accelerate off-chip load requests by
removing the on-chip cache access latency from their critical path. To this
end, we propose a new technique called Hermes, whose key idea is to: 1)
accurately predict which load requests might go off-chip, and 2) speculatively
fetch the data required by the predicted off-chip loads directly from the main
memory, while also concurrently accessing the cache hierarchy for such loads.
To enable Hermes, we develop a new lightweight, perceptron-based off-chip load
prediction technique that learns to identify off-chip load requests using
multiple program features (e.g., sequence of program counters). For every load
request, the predictor observes a set of program features to predict whether or
not the load would go off-chip. If the load is predicted to go off-chip, Hermes
issues a speculative request directly to the memory controller once the load's
physical address is generated. If the prediction is correct, the load
eventually misses the cache hierarchy and waits for the ongoing speculative
request to finish, thus hiding the on-chip cache hierarchy access latency from
the critical path of the off-chip load. Our evaluation shows that Hermes
significantly improves performance of a state-of-the-art baseline. We
open-source Hermes.
- Abstract(参考訳): 長時間の遅延負荷要求は高性能プロセッサの性能を制限し続ける。
プロセッサのレイテンシ耐性を高めるため、アーキテクトは主に2つの重要な技術、洗練されたデータプリフェッチと大きなオンチップキャッシュに頼っている。
この研究で、私たちは次のように示します。
1)最先端のプリフェッチャーでさえ、さまざまなワークロードで平均でオフチップのロード要求の半分しか予測できない。
2) オンチップキャッシュのサイズと複雑さの増大により,オフチップ負荷要求のレイテンシの大部分がオンチップキャッシュ階層へのアクセスに費やされている。
この作業の目標は、オンチップのキャッシュアクセス遅延をクリティカルパスから削除することで、オフチップのロード要求を高速化することである。
この目的のために、我々はHermesと呼ばれる新しい手法を提案している。
1)どの負荷要求がオフチップになるかを正確に予測し、
2) 予測したオフチップロードに必要なデータをメインメモリから直接フェッチすると同時に,キャッシュ階層にも同時にアクセスする。
ヘルメスを実現するために,複数のプログラム機能(プログラムカウンタのシーケンスなど)を用いて,オフチップ負荷要求を識別することを学ぶための,新しい軽量なパーセプトロンベースのオフチップ負荷予測手法を開発した。
ロード要求毎に、予測者は一連のプログラム機能を観察し、負荷がオフチップになるかどうかを予測する。
負荷がオフチップになると予測された場合、Hermesは負荷の物理アドレスが生成されると、メモリコントローラに直接投機要求を発行する。
予測が正しければ、最終的に負荷はキャッシュ階層を逃し、進行中の投機的要求が終了するのを待つため、オンチップキャッシュ階層アクセスレイテンシはオフチップロードのクリティカルパスから隠される。
評価の結果,hermesは最先端のベースラインの性能を大幅に向上させた。
Hermesをオープンソースにしています。
関連論文リスト
- Adaptive, Continuous Entanglement Generation for Quantum Networks [59.600944425468676]
量子ネットワークは情報伝達のために、遠方のノードにおける量子ビット間の絡み合いに依存している。
本稿では、前回の要求からの情報を用いてランダムに生成された量子リンクの選択をガイドする適応型スキームを提案する。
また、遅延性能の違いが量子ネットワークのリソースの最適な割り当ての必要性を示唆する量子メモリ割り当てシナリオについても検討する。
論文 参考訳(メタデータ) (2022-12-17T05:40:09Z) - Optimistic No-regret Algorithms for Discrete Caching [6.182368229968862]
楽観的な学習の文脈において,ファイル全体を限られた容量でキャッシュに格納するという問題を体系的に検討する。
予測支援オンラインキャッシュのための普遍的な下位境界を提供し、様々なパフォーマンス・複雑さのトレードオフを持つ一連のポリシーを設計する。
我々の結果は、最近提案されたすべてのオンラインキャッシュポリシーを大幅に改善し、オラクルの予測を活用できないため、後悔する$O(sqrtT)しか提供できません。
論文 参考訳(メタデータ) (2022-08-15T09:18:41Z) - Efficient NLP Inference at the Edge via Elastic Pipelining [0.42970700836450487]
WRXは2つの新しい手法によってレイテンシ/メモリの緊張を緩和する。
We build WRX and evaluation that on a range of NLP tasks, under a practical range of target latencies, on both CPU and GPU。
論文 参考訳(メタデータ) (2022-07-11T17:15:57Z) - TransforMAP: Transformer for Memory Access Prediction [10.128730975303407]
データプリフェッチ(Data Prefetching)は、プログラムが必要とするデータを取得することで、メモリ遅延を隠蔽するテクニックである。
アドレス空間全体から学習できる強力なTransformerモデルに基づいてTransforMAPを開発した。
我々は,最先端の捕食者やISB捕食者よりも高い35.67%のMPKI改善が達成されていることを示す。
論文 参考訳(メタデータ) (2022-05-29T22:14:38Z) - FlashAttention: Fast and Memory-Efficient Exact Attention with
IO-Awareness [80.3586155104237]
FlashAttentionは、トランスフォーマーのためのIO対応の正確な注意アルゴリズムである。
これにより、GPU高帯域メモリ(HBM)とGPUオンチップ間のメモリ読み込み/書き込み数を削減できる。
FlashAttentionとブロックスパース FlashAttentionは、トランスフォーマーのコンテキストを長くすることを可能にする。
論文 参考訳(メタデータ) (2022-05-27T17:53:09Z) - Training Personalized Recommendation Systems from (GPU) Scratch: Look
Forward not Backwards [1.7733623930581417]
パーソナライズドレコメンデーションモデル(RecSys)は、ハイパースケーラによって提供される最も人気のある機械学習ワークロードの1つである。
RecSysをトレーニングする上で重要な課題は、その高いメモリ容量要件であり、数百GBからTBのモデルサイズに到達している。
RecSysでは、いわゆる埋め込み層がメモリ使用の大部分を占めるため、現在のシステムでは、メモリ空腹層を格納する大きなCPUメモリを格納するために、ハイブリッドCPU-GPU設計を採用している。
論文 参考訳(メタデータ) (2022-05-10T07:05:20Z) - LQoCo: Learning to Optimize Cache Capacity Overloading in Storage
Systems [17.49411699184401]
キャッシュはストレージシステムにおけるハイパフォーマンスと安定したパフォーマンスを維持する上で重要な役割を担います。
既存のルールベースのキャッシュ管理メソッドは、エンジニアの手動構成と相まって、頻繁にキャッシュをオーバーロードする。
キャッシュ帯域幅を適応的に制御できるLQoCoという,軽量な学習ベースのキャッシュ帯域幅制御手法を提案する。
論文 参考訳(メタデータ) (2022-03-21T13:53:22Z) - Semi-supervised Network Embedding with Differentiable Deep Quantisation [81.49184987430333]
我々はネットワーク埋め込みのための微分可能な量子化法であるd-SNEQを開発した。
d-SNEQは、学習された量子化符号にリッチな高次情報を与えるためにランク損失を組み込む。
トレーニング済みの埋め込みのサイズを大幅に圧縮できるため、ストレージのフットプリントが減少し、検索速度が向上する。
論文 参考訳(メタデータ) (2021-08-20T11:53:05Z) - Learning to Rehearse in Long Sequence Memorization [107.14601197043308]
既存の推論タスクは、しばしば、推論中に入力内容が常にアクセス可能であるという重要な仮定を持つ。
メモリ拡張ニューラルネットワークは、人間のような書き込み読み取りメモリを導入し、1回のパスで長い入力シーケンスを圧縮し記憶する。
しかし、2つの重大な欠点がある: 1) メモリを現在の情報から継続的に更新し、必然的に初期の内容を忘れる; 2) 重要な情報を区別せず、全てのコンテンツを平等に扱う。
本稿では,履歴サンプリング装置を用いた自己教師型リハーサルによる長期記憶向上のためのリハーサルメモリを提案する。
論文 参考訳(メタデータ) (2021-06-02T11:58:30Z) - Reinforcement Learning for Caching with Space-Time Popularity Dynamics [61.55827760294755]
キャッシングは次世代ネットワークにおいて重要な役割を果たすと想定されている。
コンテンツをインテリジェントにプリフェッチし、保存するためには、キャッシュノードは、何といつキャッシュするかを学ばなければならない。
本章では、近似キャッシングポリシー設計のための多目的強化学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-19T01:23:51Z) - A Non-Stationary Bandit-Learning Approach to Energy-Efficient
Femto-Caching with Rateless-Coded Transmission [98.47527781626161]
小セルネットワークにおける共同キャッシュと送信のためのリソース割り当て問題について検討する。
次に、各放送ラウンドの送信電力レベルとともに、キャッシュからファイルを選択するという問題を定式化する。
最先端の研究とは対照的に、提案手法は時変統計特性を持つネットワークに特に適している。
論文 参考訳(メタデータ) (2020-04-13T09:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。