Fugu-MT 論文翻訳(概要): Puppeteer: A Random Forest-based Manager for Hardware Prefetchers across the Memory Hierarchy

論文の概要: Puppeteer: A Random Forest-based Manager for Hardware Prefetchers across the Memory Hierarchy

arxiv url: http://arxiv.org/abs/2201.12027v1
Date: Fri, 28 Jan 2022 10:25:12 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-31 23:25:43.659314
Title: Puppeteer: A Random Forest-based Manager for Hardware Prefetchers across the Memory Hierarchy
Title（参考訳）: Puppeteer: メモリ階層を越えたハードウェアプリフェッチのためのランダムフォレストベースのマネージャ
Authors: Furkan Eris, Marcia S. Louis, Kubra Eris, Jose L. Abellan, Ajay Joshi
Abstract要約: そこで我々はPuppeteerを,ランダムなフォレスト回帰器のスイートを用いて,メモリ階層の各レベルにおいてどのプレフェッシャーをオンすべきかを実行時に決定するハードウェアプレフェッシャーマネージャとして提案する。 Puppeteerを使うことで、1 Core (1C) で46.4%、4 Core (4C) で25.8%、SPEC 2017 SPEC2006と10KBのオーバーヘッドを持つクラウドスイートで平均して8 Core (8C) プロセッサで11.9%改善できる。
参考スコア（独自算出の注目度）: 1.5049442691806052
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Over the years, processor throughput has steadily increased. However, the memory throughput has not increased at the same rate, which has led to the memory wall problem in turn increasing the gap between effective and theoretical peak processor performance. To cope with this, there has been an abundance of work in the area of data/instruction prefetcher designs. Broadly, prefetchers predict future data/instruction address accesses and proactively fetch data/instructions in the memory hierarchy with the goal of lowering data/instruction access latency. To this end, one or more prefetchers are deployed at each level of the memory hierarchy, but typically, each prefetcher gets designed in isolation without comprehensively accounting for other prefetchers in the system. As a result, individual prefetchers do not always complement each other, and that leads to lower average performance gains and/or many negative outliers. In this work, we propose Puppeteer, which is a hardware prefetcher manager that uses a suite of random forest regressors to determine at runtime which prefetcher should be ON at each level in the memory hierarchy, such that the prefetchers complement each other and we reduce the data/instruction access latency. Compared to a design with no prefetchers, using Puppeteer we improve IPC by 46.0% in 1 Core (1C), 25.8% in 4 Core (4C), and 11.9% in 8 Core (8C) processors on average across traces generated from SPEC2017, SPEC2006, and Cloud suites with ~10KB overhead. Moreover, we also reduce the number of negative outliers by over 89%, and the performance loss of the worst-case negative outlier from 25% to only 5% compared to the state-of-the-art.
Abstract（参考訳）: 長年にわたり、プロセッサのスループットは着実に向上した。しかし、メモリスループットは同じ速度では向上せず、結果としてメモリウォールの問題が発生し、効率と理論上のピークプロセッサ性能のギャップが増大した。これに対処するため、データ/インストラクションプリフェッチャー設計の領域では、多くの作業が行われている。プリフェッチは、将来のデータ/インストラクションアドレスアクセスを予測し、データ/インストラクションアクセスレイテンシの低下を目標として、メモリ階層内のデータ/インストラクションを積極的にフェッチする。この目的のために、1つ以上のプリフェッチがメモリ階層の各レベルでデプロイされるが、通常、各プリフェッチはシステム内の他のプリフェッチを包括的に考慮することなく、独立して設計される。その結果、個々のプリフェッチが常に補完するとは限らないため、平均的なパフォーマンス向上や、あるいは多くの負のアウトリーチにつながる。本稿では,ハードウェアプリフェッチマネージャであるpuppeteerを提案する。このpuppeteerは,ランダムフォレストレグレプタのスイートを使用して,プリフェッチが相互補完し,データ/インストラクションアクセスレイテンシを低減するように,メモリ階層の各レベルにおいてプリフェッチがどのレベルにあるべきかを実行時に判断する。 Puppeteer では 1 Core (1C) で 46.0%、 4 Core (4C) で 25.8%、および 8 Core (8C) プロセッサで 11.9% の改善を行い、SPEC2017, SPEC2006, Cloud Suites から生成される平均10KB のオーバヘッドを持つ。さらに,負の外れ値の数が89%以上減少し,最悪の場合の負の外れ値のパフォーマンスが25%から5%に低下した。

関連論文リスト

eMoE: Task-aware Memory Efficient Mixture-of-Experts-Based (MoE) Model Inference [6.642099288463585]
大規模言語モデル(LLM)のためのメモリ効率の良い推論システムeMoEを提案する。 eMoEは、専門家ルーティングの繰り返しパターンに基づいて、必要な専門家のみを予測およびロードすることで、メモリ使用量を削減する。また、処理のプロンプトが40倍長くなり、バッチが4.5倍大きくなり、スループットが1.5倍向上する。
論文参考訳（メタデータ） (2025-03-10T01:11:52Z)
HeadInfer: Memory-Efficient LLM Inference by Head-wise Offloading [79.38548165722229]
HEADINFERはKVキャッシュをCPURAMにオフロードするが、GPU上のトランスフォーマー層のKVキャッシュを完全に保存する必要はない。 HEADINFERはメモリフットプリントを大幅に削減し,計算効率を向上することを示した。
論文参考訳（メタデータ） (2025-02-18T06:26:05Z)
APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。 i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文参考訳（メタデータ） (2024-12-06T18:55:34Z)
Efficient Tabular Data Preprocessing of ML Pipelines [9.23424733090734]
データ前処理パイプラインは機械学習(ML)トレーニングの重要なコンポーネントである。 Piperは、データ前処理のためのハードウェアアクセラレータで、FPGA上でプロトタイプし、商用レコメンデータシステムのパイプラインをトレーニングする可能性を実証している。 Piperは128コアのCPUサーバ上でのレイテンシの高速化を4.7$sim$ 71.3$times$達成し、バイナリ入力を使用する場合のデータセンタGPUの4.8$sim$ 20.3$times$を上回っている。
論文参考訳（メタデータ） (2024-09-23T11:07:57Z)
GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文参考訳（メタデータ） (2024-03-06T07:29:57Z)
Sparse MeZO: Less Parameters for Better Performance in Zeroth-Order LLM Fine-Tuning [67.44661423463927]
本稿では,ZOをパラメータの慎重に選択したサブセットにのみ適用するメモリ効率のゼロ階最適化手法であるSparse MeZOを紹介する。その結果,Sparse-MeZO はオーバーヘッドを伴わずに,MeZO 上での性能と収束速度を安定的に向上することを示した。
論文参考訳（メタデータ） (2024-02-24T07:22:04Z)
Evaluating Homomorphic Operations on a Real-World Processing-In-Memory System [7.46176168736093]
ホモモルフィック暗号化はデータのセキュリティとプライバシーのリスクを減らす有望なアプローチだ我々は、PIM(Processing-in-Memory)パラダイムを使用して、大規模なメモリ容量と頻繁なデータ移動要求を軽減する。
論文参考訳（メタデータ） (2023-09-12T19:39:15Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
QLoRA: Efficient Finetuning of Quantized LLMs [66.58009990713134]
我々は,48GBのGPU上で65Bパラメータモデルを微調整するのに十分なメモリ使用量を削減する,効率的な微調整手法QLoRAを提案する。 QLoRAは凍結した4ビット量子化事前学習言語モデルを通して低ランクアダプタ(LoRA)に逆伝搬する最高のモデルファミリであるGuanacoは、Vicunaベンチマークでリリースされたすべてのモデルより優れています。
論文参考訳（メタデータ） (2023-05-23T17:50:33Z)
Learning Branch Probabilities in Compiler from Datacenter Workloads [0.0]
機械学習モデルでは,コンパイラと比較して分岐確率が18～50%向上することを示す。これは、40のベンチマークスイートのうち、最大8.1%がパフォーマンス改善であり、1%がGeomeanの改善であることを意味している。
論文参考訳（メタデータ） (2022-02-10T12:59:49Z)
Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。 Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。 ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文参考訳（メタデータ） (2021-11-22T11:23:01Z)
MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文参考訳（メタデータ） (2021-10-28T17:58:45Z)
Custom Tailored Suite of Random Forests for Prefetcher Adaptation [2.466065249430994]
SuitAPはハードウェアのプレフェッチャーアダプタで、ランダムなフォレストを使って実行時に各メモリレベルでどのプレフェッチャーをオンすべきかを判断する。プリフェッチのない設計と比較して、SwitAPを使うことで、12KBのオーバーヘッドを持つSPEC 2017スイートから生成されるトレース平均で、IPCを46%改善する。
論文参考訳（メタデータ） (2020-08-01T05:43:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。