論文の概要: Hermes: Accelerating Long-Latency Load Requests via Perceptron-Based
Off-Chip Load Prediction
- arxiv url: http://arxiv.org/abs/2209.00188v1
- Date: Thu, 1 Sep 2022 02:56:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 14:21:16.945580
- Title: Hermes: Accelerating Long-Latency Load Requests via Perceptron-Based
Off-Chip Load Prediction
- Title(参考訳): Hermes: パーセプトロンベースのオフチップ負荷予測による長時間負荷要求の高速化
- Authors: Rahul Bera, Konstantinos Kanellopoulos, Shankar Balachandran, David
Novo, Ataberk Olgun, Mohammad Sadrosadati, Onur Mutlu
- Abstract要約: オフチップ負荷要求を高速化するHermesと呼ばれる新しい手法を提案する。
Hermesは、どのロードリクエストがオフチップになるかを正確に予測し、予測されたオフチップロードに必要なデータを投機的にフェッチする。
Hermesは最先端のベースラインのパフォーマンスを大幅に向上させる。
- 参考スコア(独自算出の注目度): 8.80732571873339
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-latency load requests continue to limit the performance of
high-performance processors. To increase the latency tolerance of a processor,
architects have primarily relied on two key techniques: sophisticated data
prefetchers and large on-chip caches. In this work, we show that: 1) even a
sophisticated state-of-the-art prefetcher can only predict half of the off-chip
load requests on average across a wide range of workloads, and 2) due to the
increasing size and complexity of on-chip caches, a large fraction of the
latency of an off-chip load request is spent accessing the on-chip cache
hierarchy. The goal of this work is to accelerate off-chip load requests by
removing the on-chip cache access latency from their critical path. To this
end, we propose a new technique called Hermes, whose key idea is to: 1)
accurately predict which load requests might go off-chip, and 2) speculatively
fetch the data required by the predicted off-chip loads directly from the main
memory, while also concurrently accessing the cache hierarchy for such loads.
To enable Hermes, we develop a new lightweight, perceptron-based off-chip load
prediction technique that learns to identify off-chip load requests using
multiple program features (e.g., sequence of program counters). For every load
request, the predictor observes a set of program features to predict whether or
not the load would go off-chip. If the load is predicted to go off-chip, Hermes
issues a speculative request directly to the memory controller once the load's
physical address is generated. If the prediction is correct, the load
eventually misses the cache hierarchy and waits for the ongoing speculative
request to finish, thus hiding the on-chip cache hierarchy access latency from
the critical path of the off-chip load. Our evaluation shows that Hermes
significantly improves performance of a state-of-the-art baseline. We
open-source Hermes.
- Abstract(参考訳): 長時間の遅延負荷要求は高性能プロセッサの性能を制限し続ける。
プロセッサのレイテンシ耐性を高めるため、アーキテクトは主に2つの重要な技術、洗練されたデータプリフェッチと大きなオンチップキャッシュに頼っている。
この研究で、私たちは次のように示します。
1)最先端のプリフェッチャーでさえ、さまざまなワークロードで平均でオフチップのロード要求の半分しか予測できない。
2) オンチップキャッシュのサイズと複雑さの増大により,オフチップ負荷要求のレイテンシの大部分がオンチップキャッシュ階層へのアクセスに費やされている。
この作業の目標は、オンチップのキャッシュアクセス遅延をクリティカルパスから削除することで、オフチップのロード要求を高速化することである。
この目的のために、我々はHermesと呼ばれる新しい手法を提案している。
1)どの負荷要求がオフチップになるかを正確に予測し、
2) 予測したオフチップロードに必要なデータをメインメモリから直接フェッチすると同時に,キャッシュ階層にも同時にアクセスする。
ヘルメスを実現するために,複数のプログラム機能(プログラムカウンタのシーケンスなど)を用いて,オフチップ負荷要求を識別することを学ぶための,新しい軽量なパーセプトロンベースのオフチップ負荷予測手法を開発した。
ロード要求毎に、予測者は一連のプログラム機能を観察し、負荷がオフチップになるかどうかを予測する。
負荷がオフチップになると予測された場合、Hermesは負荷の物理アドレスが生成されると、メモリコントローラに直接投機要求を発行する。
予測が正しければ、最終的に負荷はキャッシュ階層を逃し、進行中の投機的要求が終了するのを待つため、オンチップキャッシュ階層アクセスレイテンシはオフチップロードのクリティカルパスから隠される。
評価の結果,hermesは最先端のベースラインの性能を大幅に向上させた。
Hermesをオープンソースにしています。
関連論文リスト
- RelayAttention for Efficient Large Language Model Serving with Long
System Prompts [65.00227938792064]
本稿では,長いシステムプロンプトを含むLCMサービスの効率を向上させることを目的とする。
これらのシステムプロンプトの処理には、既存の因果注意計算アルゴリズムにおいて、冗長なメモリアクセスが必要となる。
本稿では,DRAMから入力トークンのバッチに対して,これらの隠れ状態を正確に1回だけ読み取ることのできるアテンションアルゴリズムRelayAttentionを提案する。
論文 参考訳(メタデータ) (2024-02-22T18:58:28Z) - A Learning-Based Caching Mechanism for Edge Content Delivery [2.7110241847592915]
5GネットワークとIoT(Internet of Things)の台頭により、ネットワークのエッジはますます拡大している。
このシフトは、特に限られたキャッシュストレージとエッジにおける多様な要求パターンのために、ユニークな課題をもたらす。
HR-Cacheは、ハザードレート(HR)順序付けの原則に基づく学習ベースのキャッシュフレームワークである。
論文 参考訳(メタデータ) (2024-02-05T08:06:03Z) - DeePref: Deep Reinforcement Learning For Video Prefetching In Content
Delivery Networks [0.06138671548064355]
本稿では,Deep Reinforcement Learning Agent for online video content prefetching in Content Delivery Networksを提案する。
この結果から,実世界のデータセットを用いたDeePref DRQNは,前処理精度が17%,前処理カバレッジが平均で28%向上することがわかった。
論文 参考訳(メタデータ) (2023-10-11T20:45:46Z) - Implicit Occupancy Flow Fields for Perception and Prediction in
Self-Driving [68.95178518732965]
自動運転車(SDV)は、周囲を認識でき、他の交通参加者の将来の行動を予測できなければならない。
既存の作業は、検出されたオブジェクトの軌跡が続くオブジェクト検出を実行するか、シーン全体の密度の高い占有とフローグリッドを予測するかのいずれかである。
これは、認識と将来の予測に対する統一されたアプローチを動機付け、単一のニューラルネットワークで時間とともに占有とフローを暗黙的に表現します。
論文 参考訳(メタデータ) (2023-08-02T23:39:24Z) - TransforMAP: Transformer for Memory Access Prediction [10.128730975303407]
データプリフェッチ(Data Prefetching)は、プログラムが必要とするデータを取得することで、メモリ遅延を隠蔽するテクニックである。
アドレス空間全体から学習できる強力なTransformerモデルに基づいてTransforMAPを開発した。
我々は,最先端の捕食者やISB捕食者よりも高い35.67%のMPKI改善が達成されていることを示す。
論文 参考訳(メタデータ) (2022-05-29T22:14:38Z) - FlashAttention: Fast and Memory-Efficient Exact Attention with
IO-Awareness [80.3586155104237]
FlashAttentionは、トランスフォーマーのためのIO対応の正確な注意アルゴリズムである。
これにより、GPU高帯域メモリ(HBM)とGPUオンチップ間のメモリ読み込み/書き込み数を削減できる。
FlashAttentionとブロックスパース FlashAttentionは、トランスフォーマーのコンテキストを長くすることを可能にする。
論文 参考訳(メタデータ) (2022-05-27T17:53:09Z) - Scheduling Quantum Teleportation with Noisy Memories [0.0]
ノイズの多いメモリプラットフォームにおける量子ビットの格納による量子ネットワークのノードの忠実度に対するデコヒーレンスの影響を定量化する。
ノードにおける忠実度は項の線形和であり、時間とともに指数関数的に減衰し、その崩壊率はメモリプラットフォームのデコヒーレンス速度に依存することを示す。
バッファオーバーフロー管理のプッシュアウトを併用したLast In First Outのキュービット提供が,平均忠実度の観点から最適であることを示す。
論文 参考訳(メタデータ) (2022-05-12T18:29:42Z) - Training Personalized Recommendation Systems from (GPU) Scratch: Look
Forward not Backwards [1.7733623930581417]
パーソナライズドレコメンデーションモデル(RecSys)は、ハイパースケーラによって提供される最も人気のある機械学習ワークロードの1つである。
RecSysをトレーニングする上で重要な課題は、その高いメモリ容量要件であり、数百GBからTBのモデルサイズに到達している。
RecSysでは、いわゆる埋め込み層がメモリ使用の大部分を占めるため、現在のシステムでは、メモリ空腹層を格納する大きなCPUメモリを格納するために、ハイブリッドCPU-GPU設計を採用している。
論文 参考訳(メタデータ) (2022-05-10T07:05:20Z) - Learning to Rehearse in Long Sequence Memorization [107.14601197043308]
既存の推論タスクは、しばしば、推論中に入力内容が常にアクセス可能であるという重要な仮定を持つ。
メモリ拡張ニューラルネットワークは、人間のような書き込み読み取りメモリを導入し、1回のパスで長い入力シーケンスを圧縮し記憶する。
しかし、2つの重大な欠点がある: 1) メモリを現在の情報から継続的に更新し、必然的に初期の内容を忘れる; 2) 重要な情報を区別せず、全てのコンテンツを平等に扱う。
本稿では,履歴サンプリング装置を用いた自己教師型リハーサルによる長期記憶向上のためのリハーサルメモリを提案する。
論文 参考訳(メタデータ) (2021-06-02T11:58:30Z) - A Non-Stationary Bandit-Learning Approach to Energy-Efficient
Femto-Caching with Rateless-Coded Transmission [98.47527781626161]
小セルネットワークにおける共同キャッシュと送信のためのリソース割り当て問題について検討する。
次に、各放送ラウンドの送信電力レベルとともに、キャッシュからファイルを選択するという問題を定式化する。
最先端の研究とは対照的に、提案手法は時変統計特性を持つネットワークに特に適している。
論文 参考訳(メタデータ) (2020-04-13T09:07:17Z) - Parallelising the Queries in Bucket Brigade Quantum RAM [69.43216268165402]
量子アルゴリズムは、しばしばデータベースのような方法で格納された情報にアクセスするために量子RAM(QRAM)を使用する。
本稿では,Clifford+Tゲートの並列性を利用して,効率的なクエリ時間を大幅に短縮する手法を提案する。
理論的には、フォールトトレラントバケットの量子RAMクエリは古典的なRAMの速度とほぼ一致する。
論文 参考訳(メタデータ) (2020-02-21T14:50:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。