論文の概要: Hermes: Accelerating Long-Latency Load Requests via Perceptron-Based
Off-Chip Load Prediction
- arxiv url: http://arxiv.org/abs/2209.00188v1
- Date: Thu, 1 Sep 2022 02:56:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 14:21:16.945580
- Title: Hermes: Accelerating Long-Latency Load Requests via Perceptron-Based
Off-Chip Load Prediction
- Title(参考訳): Hermes: パーセプトロンベースのオフチップ負荷予測による長時間負荷要求の高速化
- Authors: Rahul Bera, Konstantinos Kanellopoulos, Shankar Balachandran, David
Novo, Ataberk Olgun, Mohammad Sadrosadati, Onur Mutlu
- Abstract要約: オフチップ負荷要求を高速化するHermesと呼ばれる新しい手法を提案する。
Hermesは、どのロードリクエストがオフチップになるかを正確に予測し、予測されたオフチップロードに必要なデータを投機的にフェッチする。
Hermesは最先端のベースラインのパフォーマンスを大幅に向上させる。
- 参考スコア(独自算出の注目度): 8.80732571873339
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-latency load requests continue to limit the performance of
high-performance processors. To increase the latency tolerance of a processor,
architects have primarily relied on two key techniques: sophisticated data
prefetchers and large on-chip caches. In this work, we show that: 1) even a
sophisticated state-of-the-art prefetcher can only predict half of the off-chip
load requests on average across a wide range of workloads, and 2) due to the
increasing size and complexity of on-chip caches, a large fraction of the
latency of an off-chip load request is spent accessing the on-chip cache
hierarchy. The goal of this work is to accelerate off-chip load requests by
removing the on-chip cache access latency from their critical path. To this
end, we propose a new technique called Hermes, whose key idea is to: 1)
accurately predict which load requests might go off-chip, and 2) speculatively
fetch the data required by the predicted off-chip loads directly from the main
memory, while also concurrently accessing the cache hierarchy for such loads.
To enable Hermes, we develop a new lightweight, perceptron-based off-chip load
prediction technique that learns to identify off-chip load requests using
multiple program features (e.g., sequence of program counters). For every load
request, the predictor observes a set of program features to predict whether or
not the load would go off-chip. If the load is predicted to go off-chip, Hermes
issues a speculative request directly to the memory controller once the load's
physical address is generated. If the prediction is correct, the load
eventually misses the cache hierarchy and waits for the ongoing speculative
request to finish, thus hiding the on-chip cache hierarchy access latency from
the critical path of the off-chip load. Our evaluation shows that Hermes
significantly improves performance of a state-of-the-art baseline. We
open-source Hermes.
- Abstract(参考訳): 長時間の遅延負荷要求は高性能プロセッサの性能を制限し続ける。
プロセッサのレイテンシ耐性を高めるため、アーキテクトは主に2つの重要な技術、洗練されたデータプリフェッチと大きなオンチップキャッシュに頼っている。
この研究で、私たちは次のように示します。
1)最先端のプリフェッチャーでさえ、さまざまなワークロードで平均でオフチップのロード要求の半分しか予測できない。
2) オンチップキャッシュのサイズと複雑さの増大により,オフチップ負荷要求のレイテンシの大部分がオンチップキャッシュ階層へのアクセスに費やされている。
この作業の目標は、オンチップのキャッシュアクセス遅延をクリティカルパスから削除することで、オフチップのロード要求を高速化することである。
この目的のために、我々はHermesと呼ばれる新しい手法を提案している。
1)どの負荷要求がオフチップになるかを正確に予測し、
2) 予測したオフチップロードに必要なデータをメインメモリから直接フェッチすると同時に,キャッシュ階層にも同時にアクセスする。
ヘルメスを実現するために,複数のプログラム機能(プログラムカウンタのシーケンスなど)を用いて,オフチップ負荷要求を識別することを学ぶための,新しい軽量なパーセプトロンベースのオフチップ負荷予測手法を開発した。
ロード要求毎に、予測者は一連のプログラム機能を観察し、負荷がオフチップになるかどうかを予測する。
負荷がオフチップになると予測された場合、Hermesは負荷の物理アドレスが生成されると、メモリコントローラに直接投機要求を発行する。
予測が正しければ、最終的に負荷はキャッシュ階層を逃し、進行中の投機的要求が終了するのを待つため、オンチップキャッシュ階層アクセスレイテンシはオフチップロードのクリティカルパスから隠される。
評価の結果,hermesは最先端のベースラインの性能を大幅に向上させた。
Hermesをオープンソースにしています。
関連論文リスト
- ProMoE: Fast MoE-based LLM Serving using Proactive Caching [2.041412657843408]
Mixture-of-Experts (MoE)モデルは、計算中にモデルのパラメータのサブセットだけを活性化することでこの問題を軽減する。
本稿では,中間モデルを用いた新しいプロアクティブキャッシングシステムProMoEを提案する。
評価の結果,ProMoEはプリフィルおよびデコード段階で平均2.13倍,2.84倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2024-10-29T15:31:27Z) - On the Regret of Coded Caching with Adversarial Requests [7.171698704686835]
オンライン学習フレームワークにおいて、よく知られた符号化キャッシュ問題について検討し、リクエストが順次到着する。
本稿では、Follow-The-Perturbed-Leader原則に基づくキャッシュポリシーを導入し、任意の時間水平線Tにおいて、算術的O(sqrt(T))に対するサブ線形後悔を実現することを示す。
論文 参考訳(メタデータ) (2024-09-19T01:13:03Z) - RelayAttention for Efficient Large Language Model Serving with Long System Prompts [59.50256661158862]
本稿では,長いシステムプロンプトを含むLCMサービスの効率を向上させることを目的とする。
これらのシステムプロンプトの処理には、既存の因果注意アルゴリズムにおいて、大量のメモリアクセスが必要である。
本稿では,DRAMから入力トークンのバッチに対して,DRAMから隠れた状態を正確に1回読み取ることのできるアテンションアルゴリズムであるRelayAttentionを提案する。
論文 参考訳(メタデータ) (2024-02-22T18:58:28Z) - A Learning-Based Caching Mechanism for Edge Content Delivery [2.412158290827225]
5GネットワークとIoT(Internet of Things)の台頭により、ネットワークのエッジはますます拡大している。
このシフトは、特に限られたキャッシュストレージとエッジにおける多様な要求パターンのために、ユニークな課題をもたらす。
HR-Cacheは、ハザードレート(HR)順序付けの原則に基づく学習ベースのキャッシュフレームワークである。
論文 参考訳(メタデータ) (2024-02-05T08:06:03Z) - Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads [60.84145004678826]
大規模言語モデル (LLM) では、逐次計算を必要とする自動回帰デコーディングを採用している。
我々は、余分なデコードヘッドを追加することでLLM推論を強化する効率的な方法であるMedusaを提案する。
ツリーベースのアテンションメカニズムを使用して、Medusaは複数の候補継続を構築し、各デコードステップでそれらを同時に検証する。
論文 参考訳(メタデータ) (2024-01-19T15:48:40Z) - On the Amplification of Cache Occupancy Attacks in Randomized Cache Architectures [11.018866935621045]
MIRAGEは,エビクションベースの攻撃に対して耐性があるといわれ,キャッシュ占有率の増大を図っている。
我々は,MIRAGEのグローバルな消去特性を利用して,バイトレベルの粒度を持つ被覆チャネルを実証する。
攻撃ベクトルを拡張して、ワークロードのサイドチャネル、テンプレートベースのフィンガープリントをクロスコア設定に含めます。
論文 参考訳(メタデータ) (2023-10-08T14:06:06Z) - Implicit Occupancy Flow Fields for Perception and Prediction in
Self-Driving [68.95178518732965]
自動運転車(SDV)は、周囲を認識でき、他の交通参加者の将来の行動を予測できなければならない。
既存の作業は、検出されたオブジェクトの軌跡が続くオブジェクト検出を実行するか、シーン全体の密度の高い占有とフローグリッドを予測するかのいずれかである。
これは、認識と将来の予測に対する統一されたアプローチを動機付け、単一のニューラルネットワークで時間とともに占有とフローを暗黙的に表現します。
論文 参考訳(メタデータ) (2023-08-02T23:39:24Z) - FlashAttention: Fast and Memory-Efficient Exact Attention with
IO-Awareness [80.3586155104237]
FlashAttentionは、トランスフォーマーのためのIO対応の正確な注意アルゴリズムである。
これにより、GPU高帯域メモリ(HBM)とGPUオンチップ間のメモリ読み込み/書き込み数を削減できる。
FlashAttentionとブロックスパース FlashAttentionは、トランスフォーマーのコンテキストを長くすることを可能にする。
論文 参考訳(メタデータ) (2022-05-27T17:53:09Z) - Training Personalized Recommendation Systems from (GPU) Scratch: Look
Forward not Backwards [1.7733623930581417]
パーソナライズドレコメンデーションモデル(RecSys)は、ハイパースケーラによって提供される最も人気のある機械学習ワークロードの1つである。
RecSysをトレーニングする上で重要な課題は、その高いメモリ容量要件であり、数百GBからTBのモデルサイズに到達している。
RecSysでは、いわゆる埋め込み層がメモリ使用の大部分を占めるため、現在のシステムでは、メモリ空腹層を格納する大きなCPUメモリを格納するために、ハイブリッドCPU-GPU設計を採用している。
論文 参考訳(メタデータ) (2022-05-10T07:05:20Z) - A Non-Stationary Bandit-Learning Approach to Energy-Efficient
Femto-Caching with Rateless-Coded Transmission [98.47527781626161]
小セルネットワークにおける共同キャッシュと送信のためのリソース割り当て問題について検討する。
次に、各放送ラウンドの送信電力レベルとともに、キャッシュからファイルを選択するという問題を定式化する。
最先端の研究とは対照的に、提案手法は時変統計特性を持つネットワークに特に適している。
論文 参考訳(メタデータ) (2020-04-13T09:07:17Z) - Parallelising the Queries in Bucket Brigade Quantum RAM [69.43216268165402]
量子アルゴリズムは、しばしばデータベースのような方法で格納された情報にアクセスするために量子RAM(QRAM)を使用する。
本稿では,Clifford+Tゲートの並列性を利用して,効率的なクエリ時間を大幅に短縮する手法を提案する。
理論的には、フォールトトレラントバケットの量子RAMクエリは古典的なRAMの速度とほぼ一致する。
論文 参考訳(メタデータ) (2020-02-21T14:50:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。