論文の概要: Per-Row Activation Counting on Real Hardware: Demystifying Performance Overheads
- arxiv url: http://arxiv.org/abs/2507.05556v1
- Date: Tue, 08 Jul 2025 00:38:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.459212
- Title: Per-Row Activation Counting on Real Hardware: Demystifying Performance Overheads
- Title(参考訳): 実際のハードウェア上でのアクティベーション単位の数値:パフォーマンスオーバーヘッドの最小化
- Authors: Jumin Kim, Seungmin Baek, Minbok Wi, Hwayong Nam, Michael Jaemin Kim, Sukhan Lee, Kyomin Sohn, Jung Ho Ahn,
- Abstract要約: Per-Row Activation Counting (PRAC) はキーDRAMのタイミングパラメータを変更する。
PRACはシミュレーターベースの研究でかなりの性能上のオーバーヘッドを引き起こしたと伝えられている。
PRACの最初の実機性能解析について述べる。
- 参考スコア(独自算出の注目度): 2.4012294360291477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Per-Row Activation Counting (PRAC), a DRAM read disturbance mitigation method, modifies key DRAM timing parameters, reportedly causing significant performance overheads in simulator-based studies. However, given known discrepancies between simulators and real hardware, real-machine experiments are vital for accurate PRAC performance estimation. We present the first real-machine performance analysis of PRAC. After verifying timing modifications on the latest CPUs using microbenchmarks, our analysis shows that PRAC's average and maximum overheads are just 1.06% and 3.28% for the SPEC CPU2017 workloads -- up to 9.15x lower than simulator-based reports. Further, we show that the close page policy minimizes this overhead by effectively hiding the elongated DRAM row precharge operations due to PRAC from the critical path.
- Abstract(参考訳): DRAM読み取り障害軽減手法であるper-Row Activation Counting (PRAC)は、主要なDRAMタイミングパラメータを修正し、シミュレータベースの研究でかなりの性能上のオーバーヘッドを引き起こすと報告されている。
しかし、シミュレータと実際のハードウェアとの相違が知られていることから、実機実験はPRACの性能推定に不可欠である。
PRACの最初の実機性能解析について述べる。
マイクロベンチマークを使用して最新のCPUのタイミング変更を検証すると、PRACの平均と最大オーバーヘッドは、SPEC CPU2017ワークロードの1.06%と3.28%で、シミュレータベースのレポートの9.15倍も低い。
さらに, PRACによる長大DRAM行プリチャージ操作をクリティカルパスから効果的に隠蔽することで, このオーバーヘッドを最小化できることを示す。
関連論文リスト
- Fake Runs, Real Fixes -- Analyzing xPU Performance Through Simulation [4.573673188291683]
機械コードレベルでMLモデルを分析するための詳細な方法論であるxPU-Sharkを提案する。
xPU-Sharkは、アクセラレータ上で動作する運用デプロイメントのトレースをキャプチャして、修正されたマイクロアーキテクチャシミュレータで再生する。
共通通信集合を最大15%まで最適化し、トークン生成遅延を最大4.1%削減する。
論文 参考訳(メタデータ) (2025-03-18T23:15:02Z) - Value-Based Deep RL Scales Predictably [100.21834069400023]
本研究は, 地域社会が病的行動に不安を抱いているにもかかわらず, 価値に基づく非政治的RL法が予測可能であることを示す。
SAC、BRO、PQLの3つのアルゴリズムを使って、DeepMind Control、OpenAI gym、IsaacGymの3つのアプローチを検証する。
論文 参考訳(メタデータ) (2025-02-06T18:59:47Z) - Understanding the Security Benefits and Overheads of Emerging Industry Solutions to DRAM Read Disturbance [6.637143975465625]
JEDEC DDR5仕様の2024年4月のアップデートで記述されているPRAC(Per Row Activation Counting)緩和法。
バックオフ信号はDRAMチップからメモリコントローラに伝搬する。
RFMコマンドは定期的に発行され、RAMのオーバーヘッドは減少する。
論文 参考訳(メタデータ) (2024-06-27T11:22:46Z) - Green AI: A Preliminary Empirical Study on Energy Consumption in DL
Models Across Different Runtime Infrastructures [56.200335252600354]
トレーニング済みのモデルを、ネイティブな開発環境とは異なる環境にデプロイするのは、一般的なプラクティスです。
これにより、インフラを含むONNXや標準フォーマットとして機能するONNXなどの交換フォーマットが導入された。
論文 参考訳(メタデータ) (2024-02-21T09:18:44Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - Never Train from Scratch: Fair Comparison of Long-Sequence Models Requires Data-Driven Priors [44.5740422079]
標準的なデノベーション目的による事前トレーニングは、複数のアーキテクチャで劇的に向上することを示す。
先行研究とは対照的に、適切に事前訓練された場合の長距離アリーナでのS4の性能に適合するバニラトランスフォーマーが見つかる。
論文 参考訳(メタデータ) (2023-10-04T17:17:06Z) - Re-Evaluating LiDAR Scene Flow for Autonomous Driving [80.37947791534985]
自己教師型LiDARシーンフローの一般的なベンチマークは、動的動き、非現実的な対応、非現実的なサンプリングパターンの非現実的な速度を持つ。
実世界のデータセットのスイート上で,トップメソッドのスイートを評価する。
学習に重点を置いているにもかかわらず、ほとんどのパフォーマンス向上は前処理と後処理のステップによって引き起こされる。
論文 参考訳(メタデータ) (2023-04-04T22:45:50Z) - Learning to Rank Graph-based Application Objects on Heterogeneous
Memories [0.0]
本稿では,アプリケーションの性能に最も影響を与えるアプリケーションオブジェクトを識別し,特徴付ける手法について述べる。
予測モデルを用いてデータ配置を行うことで,ベースラインのアプローチと比較して,実行時間の劣化を12% (平均) および30% (最大) 削減することができる。
論文 参考訳(メタデータ) (2022-11-04T00:20:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。