Fugu-MT 論文翻訳(概要): Hermes: Accelerating Long-Latency Load Requests via Perceptron-Based Off-Chip Load Prediction

論文の概要: Hermes: Accelerating Long-Latency Load Requests via Perceptron-Based Off-Chip Load Prediction

arxiv url: http://arxiv.org/abs/2209.00188v1
Date: Thu, 1 Sep 2022 02:56:17 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-02 14:21:16.945580
Title: Hermes: Accelerating Long-Latency Load Requests via Perceptron-Based Off-Chip Load Prediction
Title（参考訳）: Hermes: パーセプトロンベースのオフチップ負荷予測による長時間負荷要求の高速化
Authors: Rahul Bera, Konstantinos Kanellopoulos, Shankar Balachandran, David Novo, Ataberk Olgun, Mohammad Sadrosadati, Onur Mutlu
Abstract要約: オフチップ負荷要求を高速化するHermesと呼ばれる新しい手法を提案する。 Hermesは、どのロードリクエストがオフチップになるかを正確に予測し、予測されたオフチップロードに必要なデータを投機的にフェッチする。 Hermesは最先端のベースラインのパフォーマンスを大幅に向上させる。
参考スコア（独自算出の注目度）: 8.80732571873339
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Long-latency load requests continue to limit the performance of high-performance processors. To increase the latency tolerance of a processor, architects have primarily relied on two key techniques: sophisticated data prefetchers and large on-chip caches. In this work, we show that: 1) even a sophisticated state-of-the-art prefetcher can only predict half of the off-chip load requests on average across a wide range of workloads, and 2) due to the increasing size and complexity of on-chip caches, a large fraction of the latency of an off-chip load request is spent accessing the on-chip cache hierarchy. The goal of this work is to accelerate off-chip load requests by removing the on-chip cache access latency from their critical path. To this end, we propose a new technique called Hermes, whose key idea is to: 1) accurately predict which load requests might go off-chip, and 2) speculatively fetch the data required by the predicted off-chip loads directly from the main memory, while also concurrently accessing the cache hierarchy for such loads. To enable Hermes, we develop a new lightweight, perceptron-based off-chip load prediction technique that learns to identify off-chip load requests using multiple program features (e.g., sequence of program counters). For every load request, the predictor observes a set of program features to predict whether or not the load would go off-chip. If the load is predicted to go off-chip, Hermes issues a speculative request directly to the memory controller once the load's physical address is generated. If the prediction is correct, the load eventually misses the cache hierarchy and waits for the ongoing speculative request to finish, thus hiding the on-chip cache hierarchy access latency from the critical path of the off-chip load. Our evaluation shows that Hermes significantly improves performance of a state-of-the-art baseline. We open-source Hermes.
Abstract（参考訳）: 長時間の遅延負荷要求は高性能プロセッサの性能を制限し続ける。プロセッサのレイテンシ耐性を高めるため、アーキテクトは主に2つの重要な技術、洗練されたデータプリフェッチと大きなオンチップキャッシュに頼っている。この研究で、私たちは次のように示します。 1)最先端のプリフェッチャーでさえ、さまざまなワークロードで平均でオフチップのロード要求の半分しか予測できない。 2) オンチップキャッシュのサイズと複雑さの増大により,オフチップ負荷要求のレイテンシの大部分がオンチップキャッシュ階層へのアクセスに費やされている。この作業の目標は、オンチップのキャッシュアクセス遅延をクリティカルパスから削除することで、オフチップのロード要求を高速化することである。この目的のために、我々はHermesと呼ばれる新しい手法を提案している。 1)どの負荷要求がオフチップになるかを正確に予測し、 2) 予測したオフチップロードに必要なデータをメインメモリから直接フェッチすると同時に,キャッシュ階層にも同時にアクセスする。ヘルメスを実現するために,複数のプログラム機能(プログラムカウンタのシーケンスなど)を用いて,オフチップ負荷要求を識別することを学ぶための,新しい軽量なパーセプトロンベースのオフチップ負荷予測手法を開発した。ロード要求毎に、予測者は一連のプログラム機能を観察し、負荷がオフチップになるかどうかを予測する。負荷がオフチップになると予測された場合、Hermesは負荷の物理アドレスが生成されると、メモリコントローラに直接投機要求を発行する。予測が正しければ、最終的に負荷はキャッシュ階層を逃し、進行中の投機的要求が終了するのを待つため、オンチップキャッシュ階層アクセスレイテンシはオフチップロードのクリティカルパスから隠される。評価の結果,hermesは最先端のベースラインの性能を大幅に向上させた。 Hermesをオープンソースにしています。

関連論文リスト

KVCache Cache in the Wild: Characterizing and Optimizing KVCache Cache at a Large Cloud Provider [15.532112534717262]
大規模言語モデル(LLM)の実現はクラウドプロバイダにとって重要であり、各要求処理後の中間結果(KV$)をキャッシュすることで、スループットとレイテンシが大幅に向上する。我々は、主要なLLMサービスプロバイダの1つから、KV$ワークロードパターンを初めて体系的に評価した。本稿では,特にキャッシュ容量の制限により,実世界のトレース下でのサービス性能を向上させる,ワークロード対応のキャッシュ消去ポリシーを提案する。
論文参考訳（メタデータ） (2025-06-03T08:51:38Z)
A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。 3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文参考訳（メタデータ） (2025-02-21T10:12:34Z)
CacheMamba: Popularity Prediction for Mobile Edge Caching Networks via Selective State Spaces [6.895209729810318]
モバイルエッジキャッシング(MEC)は、エッジサーバ上で頻繁に要求されるコンテンツを動的にキャッシュすることによって、データ集約型サービスのレイテンシを軽減する上で、重要な役割を果たす。本稿では,意図したファイルの時系列要求データを活用することで,MECにおける人気予測の問題を検討する。本稿では,状態空間モデル(SSM)に基づくアーキテクチャであるMambaを用いて,要求される確率が最も高いトップKファイルを識別するCacheMambaモデルを提案する。
論文参考訳（メタデータ） (2025-02-09T05:57:59Z)
ProMoE: Fast MoE-based LLM Serving using Proactive Caching [2.041412657843408]
Mixture-of-Experts (MoE)モデルは、計算中にモデルのパラメータのサブセットだけを活性化することでこの問題を軽減する。本稿では,中間モデルを用いた新しいプロアクティブキャッシングシステムProMoEを提案する。評価の結果,ProMoEはプリフィルおよびデコード段階で平均2.13倍,2.84倍のスピードアップを達成した。
論文参考訳（メタデータ） (2024-10-29T15:31:27Z)
On the Regret of Coded Caching with Adversarial Requests [7.171698704686835]
オンライン学習フレームワークにおいて、よく知られた符号化キャッシュ問題について検討し、リクエストが順次到着する。本稿では、Follow-The-Perturbed-Leader原則に基づくキャッシュポリシーを導入し、任意の時間水平線Tにおいて、算術的O(sqrt(T))に対するサブ線形後悔を実現することを示す。
論文参考訳（メタデータ） (2024-09-19T01:13:03Z)
RelayAttention for Efficient Large Language Model Serving with Long System Prompts [59.50256661158862]
本稿では,長いシステムプロンプトを含むLCMサービスの効率を向上させることを目的とする。これらのシステムプロンプトの処理には、既存の因果注意アルゴリズムにおいて、大量のメモリアクセスが必要である。本稿では,DRAMから入力トークンのバッチに対して,DRAMから隠れた状態を正確に1回読み取ることのできるアテンションアルゴリズムであるRelayAttentionを提案する。
論文参考訳（メタデータ） (2024-02-22T18:58:28Z)
A Learning-Based Caching Mechanism for Edge Content Delivery [2.412158290827225]
5GネットワークとIoT(Internet of Things)の台頭により、ネットワークのエッジはますます拡大している。このシフトは、特に限られたキャッシュストレージとエッジにおける多様な要求パターンのために、ユニークな課題をもたらす。 HR-Cacheは、ハザードレート(HR)順序付けの原則に基づく学習ベースのキャッシュフレームワークである。
論文参考訳（メタデータ） (2024-02-05T08:06:03Z)
Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads [60.84145004678826]
大規模言語モデル (LLM) では、逐次計算を必要とする自動回帰デコーディングを採用している。我々は、余分なデコードヘッドを追加することでLLM推論を強化する効率的な方法であるMedusaを提案する。ツリーベースのアテンションメカニズムを使用して、Medusaは複数の候補継続を構築し、各デコードステップでそれらを同時に検証する。
論文参考訳（メタデータ） (2024-01-19T15:48:40Z)
On the Amplification of Cache Occupancy Attacks in Randomized Cache Architectures [11.018866935621045]
MIRAGEは,エビクションベースの攻撃に対して耐性があるといわれ,キャッシュ占有率の増大を図っている。我々は,MIRAGEのグローバルな消去特性を利用して,バイトレベルの粒度を持つ被覆チャネルを実証する。攻撃ベクトルを拡張して、ワークロードのサイドチャネル、テンプレートベースのフィンガープリントをクロスコア設定に含めます。
論文参考訳（メタデータ） (2023-10-08T14:06:06Z)
Implicit Occupancy Flow Fields for Perception and Prediction in Self-Driving [68.95178518732965]
自動運転車(SDV)は、周囲を認識でき、他の交通参加者の将来の行動を予測できなければならない。既存の作業は、検出されたオブジェクトの軌跡が続くオブジェクト検出を実行するか、シーン全体の密度の高い占有とフローグリッドを予測するかのいずれかである。これは、認識と将来の予測に対する統一されたアプローチを動機付け、単一のニューラルネットワークで時間とともに占有とフローを暗黙的に表現します。
論文参考訳（メタデータ） (2023-08-02T23:39:24Z)
FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness [80.3586155104237]
FlashAttentionは、トランスフォーマーのためのIO対応の正確な注意アルゴリズムである。これにより、GPU高帯域メモリ(HBM)とGPUオンチップ間のメモリ読み込み/書き込み数を削減できる。 FlashAttentionとブロックスパース FlashAttentionは、トランスフォーマーのコンテキストを長くすることを可能にする。
論文参考訳（メタデータ） (2022-05-27T17:53:09Z)
Training Personalized Recommendation Systems from (GPU) Scratch: Look Forward not Backwards [1.7733623930581417]
パーソナライズドレコメンデーションモデル(RecSys)は、ハイパースケーラによって提供される最も人気のある機械学習ワークロードの1つである。 RecSysをトレーニングする上で重要な課題は、その高いメモリ容量要件であり、数百GBからTBのモデルサイズに到達している。 RecSysでは、いわゆる埋め込み層がメモリ使用の大部分を占めるため、現在のシステムでは、メモリ空腹層を格納する大きなCPUメモリを格納するために、ハイブリッドCPU-GPU設計を採用している。
論文参考訳（メタデータ） (2022-05-10T07:05:20Z)
A Non-Stationary Bandit-Learning Approach to Energy-Efficient Femto-Caching with Rateless-Coded Transmission [98.47527781626161]
小セルネットワークにおける共同キャッシュと送信のためのリソース割り当て問題について検討する。次に、各放送ラウンドの送信電力レベルとともに、キャッシュからファイルを選択するという問題を定式化する。最先端の研究とは対照的に、提案手法は時変統計特性を持つネットワークに特に適している。
論文参考訳（メタデータ） (2020-04-13T09:07:17Z)
Parallelising the Queries in Bucket Brigade Quantum RAM [69.43216268165402]
量子アルゴリズムは、しばしばデータベースのような方法で格納された情報にアクセスするために量子RAM(QRAM)を使用する。本稿では,Clifford+Tゲートの並列性を利用して,効率的なクエリ時間を大幅に短縮する手法を提案する。理論的には、フォールトトレラントバケットの量子RAMクエリは古典的なRAMの速度とほぼ一致する。
論文参考訳（メタデータ） (2020-02-21T14:50:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。