Fugu-MT 論文翻訳(概要): Per-Row Activation Counting on Real Hardware: Demystifying Performance Overheads

論文の概要: Per-Row Activation Counting on Real Hardware: Demystifying Performance Overheads

arxiv url: http://arxiv.org/abs/2507.05556v1
Date: Tue, 08 Jul 2025 00:38:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-09 16:34:37.459212
Title: Per-Row Activation Counting on Real Hardware: Demystifying Performance Overheads
Title（参考訳）: 実際のハードウェア上でのアクティベーション単位の数値:パフォーマンスオーバーヘッドの最小化
Authors: Jumin Kim, Seungmin Baek, Minbok Wi, Hwayong Nam, Michael Jaemin Kim, Sukhan Lee, Kyomin Sohn, Jung Ho Ahn,
Abstract要約: Per-Row Activation Counting (PRAC) はキーDRAMのタイミングパラメータを変更する。 PRACはシミュレーターベースの研究でかなりの性能上のオーバーヘッドを引き起こしたと伝えられている。 PRACの最初の実機性能解析について述べる。
参考スコア（独自算出の注目度）: 2.4012294360291477
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Per-Row Activation Counting (PRAC), a DRAM read disturbance mitigation method, modifies key DRAM timing parameters, reportedly causing significant performance overheads in simulator-based studies. However, given known discrepancies between simulators and real hardware, real-machine experiments are vital for accurate PRAC performance estimation. We present the first real-machine performance analysis of PRAC. After verifying timing modifications on the latest CPUs using microbenchmarks, our analysis shows that PRAC's average and maximum overheads are just 1.06% and 3.28% for the SPEC CPU2017 workloads -- up to 9.15x lower than simulator-based reports. Further, we show that the close page policy minimizes this overhead by effectively hiding the elongated DRAM row precharge operations due to PRAC from the critical path.
Abstract（参考訳）: DRAM読み取り障害軽減手法であるper-Row Activation Counting (PRAC)は、主要なDRAMタイミングパラメータを修正し、シミュレータベースの研究でかなりの性能上のオーバーヘッドを引き起こすと報告されている。しかし、シミュレータと実際のハードウェアとの相違が知られていることから、実機実験はPRACの性能推定に不可欠である。 PRACの最初の実機性能解析について述べる。マイクロベンチマークを使用して最新のCPUのタイミング変更を検証すると、PRACの平均と最大オーバーヘッドは、SPEC CPU2017ワークロードの1.06%と3.28%で、シミュレータベースのレポートの9.15倍も低い。さらに, PRACによる長大DRAM行プリチャージ操作をクリティカルパスから効果的に隠蔽することで, このオーバーヘッドを最小化できることを示す。

関連論文リスト

Fake Runs, Real Fixes -- Analyzing xPU Performance Through Simulation [4.573673188291683]
機械コードレベルでMLモデルを分析するための詳細な方法論であるxPU-Sharkを提案する。 xPU-Sharkは、アクセラレータ上で動作する運用デプロイメントのトレースをキャプチャして、修正されたマイクロアーキテクチャシミュレータで再生する。共通通信集合を最大15%まで最適化し、トークン生成遅延を最大4.1%削減する。
論文参考訳（メタデータ） (2025-03-18T23:15:02Z)
Value-Based Deep RL Scales Predictably [100.21834069400023]
本研究は, 地域社会が病的行動に不安を抱いているにもかかわらず, 価値に基づく非政治的RL法が予測可能であることを示す。 SAC、BRO、PQLの3つのアルゴリズムを使って、DeepMind Control、OpenAI gym、IsaacGymの3つのアプローチを検証する。
論文参考訳（メタデータ） (2025-02-06T18:59:47Z)
P-MOSS: Learned Scheduling For Indexes Over NUMA Servers Using Low-Level Hardware Statistics [3.6985496077087734]
本稿では,クエリ実行を論理コアにスケジュールする空間スケジューリングフレームワークであるP-MOSSを紹介する。 P-MOSSはクエリスループットの点で従来のスケジュールよりも最大6倍改善されている。
論文参考訳（メタデータ） (2024-11-05T09:23:27Z)
PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation [68.17081518640934]
ロボット操作のためのPrIrmitive-driVen waypOinT-aware world model(PIVOT-R)を提案する。 PIVOT-RはWAWM(Waypoint-aware World Model)と軽量アクション予測モジュールで構成される。私たちのPIVOT-RはSeaWaveベンチマークで最先端のオープンソースモデルより優れており、4段階の命令タスクで平均19.45%の相対的な改善を実現しています。
論文参考訳（メタデータ） (2024-10-14T11:30:18Z)
Understanding the Security Benefits and Overheads of Emerging Industry Solutions to DRAM Read Disturbance [6.637143975465625]
JEDEC DDR5仕様の2024年4月のアップデートで記述されているPRAC(Per Row Activation Counting)緩和法。バックオフ信号はDRAMチップからメモリコントローラに伝搬する。 RFMコマンドは定期的に発行され、RAMのオーバーヘッドは減少する。
論文参考訳（メタデータ） (2024-06-27T11:22:46Z)
Green AI: A Preliminary Empirical Study on Energy Consumption in DL Models Across Different Runtime Infrastructures [56.200335252600354]
トレーニング済みのモデルを、ネイティブな開発環境とは異なる環境にデプロイするのは、一般的なプラクティスです。これにより、インフラを含むONNXや標準フォーマットとして機能するONNXなどの交換フォーマットが導入された。
論文参考訳（メタデータ） (2024-02-21T09:18:44Z)
HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文参考訳（メタデータ） (2024-02-14T18:04:36Z)
Never Train from Scratch: Fair Comparison of Long-Sequence Models Requires Data-Driven Priors [44.5740422079]
標準的なデノベーション目的による事前トレーニングは、複数のアーキテクチャで劇的に向上することを示す。先行研究とは対照的に、適切に事前訓練された場合の長距離アリーナでのS4の性能に適合するバニラトランスフォーマーが見つかる。
論文参考訳（メタデータ） (2023-10-04T17:17:06Z)
Re-Evaluating LiDAR Scene Flow for Autonomous Driving [80.37947791534985]
自己教師型LiDARシーンフローの一般的なベンチマークは、動的動き、非現実的な対応、非現実的なサンプリングパターンの非現実的な速度を持つ。実世界のデータセットのスイート上で,トップメソッドのスイートを評価する。学習に重点を置いているにもかかわらず、ほとんどのパフォーマンス向上は前処理と後処理のステップによって引き起こされる。
論文参考訳（メタデータ） (2023-04-04T22:45:50Z)
Learning to Rank Graph-based Application Objects on Heterogeneous Memories [0.0]
本稿では,アプリケーションの性能に最も影響を与えるアプリケーションオブジェクトを識別し,特徴付ける手法について述べる。予測モデルを用いてデータ配置を行うことで,ベースラインのアプローチと比較して,実行時間の劣化を12% (平均) および30% (最大) 削減することができる。
論文参考訳（メタデータ） (2022-11-04T00:20:31Z)
MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。 MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文参考訳（メタデータ） (2022-04-27T14:00:48Z)
ATRIA: A Bit-Parallel Stochastic Arithmetic Based Accelerator for In-DRAM CNN Processing [0.5257115841810257]
ATRIAは、CNNの高速推論のための新しいビット-pArallel sTochastic aRithmeticベースのIn-DRAM加速器である。 ATRIAはCNNの推測精度がわずか3.5%低下し、フレーム/秒(FPS)が最大3.2倍、効率が最大10倍改善されている。
論文参考訳（メタデータ） (2021-05-26T18:36:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。