論文の概要: A TRRIP Down Memory Lane: Temperature-Based Re-Reference Interval Prediction For Instruction Caching
- arxiv url: http://arxiv.org/abs/2509.14041v1
- Date: Wed, 17 Sep 2025 14:42:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.887653
- Title: A TRRIP Down Memory Lane: Temperature-Based Re-Reference Interval Prediction For Instruction Caching
- Title(参考訳): TRRIPダウンメモリレーン:インストラクションキャッシングのための温度に基づく再参照間隔予測
- Authors: Henry Kao, Nikhil Sreekumar, Prabhdeep Singh Soni, Ali Sedaghati, Fang Su, Bryan Chan, Maziar Goudarzi, Reza Azimi,
- Abstract要約: TRRIP (Temperature-based Re-Reference Interval Prediction) は、コンパイラが "Temperature" に基づいたコードの解析、分類、変換を可能にする。
TRRIPの軽量ハードウェア拡張は命令キャッシュ置換ポリシーを最適化するためにコード温度属性を使用する。
TRRIPは命令のL2 MPKIを26.5%削減できるため、PGOを使って最適化済みのモバイルコードで動作するRRIPキャッシュ置換に加えて、ジオ平均速度が3.9%向上した。
- 参考スコア(独自算出の注目度): 1.8831193898002958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern mobile CPU software pose challenges for conventional instruction cache replacement policies due to their complex runtime behavior causing high reuse distance between executions of the same instruction. Mobile code commonly suffers from large amounts of stalls in the CPU frontend and thus starvation of the rest of the CPU resources. Complexity of these applications and their code footprint are projected to grow at a rate faster than available on-chip memory due to power and area constraints, making conventional hardware-centric methods for managing instruction caches to be inadequate. We present a novel software-hardware co-design approach called TRRIP (Temperature-based Re-Reference Interval Prediction) that enables the compiler to analyze, classify, and transform code based on "temperature" (hot/cold), and to provide the hardware with a summary of code temperature information through a well-defined OS interface based on using code page attributes. TRRIP's lightweight hardware extension employs code temperature attributes to optimize the instruction cache replacement policy resulting in the eviction rate reduction of hot code. TRRIP is designed to be practical and adoptable in real mobile systems that have strict feature requirements on both the software and hardware components. TRRIP can reduce the L2 MPKI for instructions by 26.5% resulting in geomean speedup of 3.9%, on top of RRIP cache replacement running mobile code already optimized using PGO.
- Abstract(参考訳): 現代のモバイルCPUソフトウェアは、実行時の複雑な動作が同じ命令の実行間で高い再利用距離を引き起こすため、従来の命令キャッシュ置換ポリシーに挑戦する。
モバイルコードは一般的に、CPUフロントエンドの大量のストールに悩まされ、そのため他のCPUリソースが枯渇する。
これらのアプリケーションとそれらのコードフットプリントの複雑さは、電力と領域の制約により、オンチップメモリよりも高速に成長するように予測されており、命令キャッシュを管理するハードウェア中心の手法は不十分である。
本稿では,TRRIP (Temperature-based Re-Reference Interval Prediction) と呼ばれる新しいソフトウェア・ハードウェア共同設計手法を提案する。
TRRIPの軽量ハードウェア拡張は、命令キャッシュ置換ポリシーを最適化するためにコード温度特性を使用し、ホットコードの排除率を低下させる。
TRRIPは、ソフトウェアとハードウェアの両方に厳格な機能要件を持つ実際のモバイルシステムにおいて実用的で採用可能なように設計されている。
TRRIPは命令のL2 MPKIを26.5%削減できるため、PGOを使って最適化済みのモバイルコードを実行するRRIPキャッシュ置換に加えて、ジオ平均速度が3.9%向上した。
関連論文リスト
- Nexus:Proactive Intra-GPU Disaggregation of Prefill and Decode in LLM Serving [4.309392302169281]
エンジンレベルのプリフィル・デコード(PD)デアグリゲーションは干渉を避けるが、高いハードウェアと調整オーバーヘッドを引き起こす。
PDは、最大2.2倍のスループット、20倍のTTFT、2.5倍のTBTを達成する。
論文 参考訳(メタデータ) (2025-07-09T07:27:18Z) - HPCTransCompile: An AI Compiler Generated Dataset for High-Performance CUDA Transpilation and LLM Preliminary Exploration [13.53425131505526]
ディープラーニングは、モデルパラメータと計算要求の指数関数的な増加を促した。
NVIDIA GPUとそのソフトウェアエコシステムは、並列コンピューティングの堅牢なサポートを提供する。
エコシステムは並列ソフトウェア分野において支配的な地位を確立してきた。
並列プログラミングのパラダイムとハードウェアの違いにより、コードを他のプラットフォームに翻訳することは大きな課題となる。
論文 参考訳(メタデータ) (2025-06-12T06:48:33Z) - QuantCache: Adaptive Importance-Guided Quantization with Hierarchical Latent and Layer Caching for Video Generation [84.91431271257437]
Diffusion Transformers (DiTs) はビデオ生成において支配的なアーキテクチャとして登場した。
DiTには、計算コストやメモリコストの増大など、大きな欠点がある。
我々は,新しいトレーニングフリー推論アクセラレーションフレームワークQuantCacheを提案する。
論文 参考訳(メタデータ) (2025-03-09T10:31:51Z) - A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。
まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。
3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文 参考訳(メタデータ) (2025-02-21T10:12:34Z) - DAOP: Data-Aware Offloading and Predictive Pre-Calculation for Efficient MoE Inference [14.676716521856813]
Mixture-of-Experts (MoE)モデルは、メモリ制限されたデバイスにおいて、重大なデプロイメント上の課題に直面している。
並列GPU-CPU実行を最適化するデバイス上でのMoE推論エンジンである presentP を提案する。
Pは従来のエキスパートキャッシングとプリフェッチの手法を最大8.20倍、オフロード技術は1.35倍、精度は維持する。
論文 参考訳(メタデータ) (2024-12-16T07:59:21Z) - Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - L2MAC: Large Language Model Automatic Computer for Extensive Code Generation [52.81694565226513]
トランスフォーマーベースの大規模言語モデル(LLM)は、基盤となるトランスフォーマーアーキテクチャの固定コンテキストウィンドウによって制約される。
本稿では,L2MACを提案する。L2MACは,LLMをベースとした汎用型自動計算機(von Neumann Architecture)フレームワークで,長期的かつ一貫した出力生成を実現する。
論文 参考訳(メタデータ) (2023-10-02T16:55:19Z) - Practical Conformer: Optimizing size, speed and flops of Conformer for
on-Device and cloud ASR [67.63332492134332]
我々は、デバイス上の制約を満たすのに十分小さく、TPUを高速に推論できる最適化されたコンバータを設計する。
提案するエンコーダは、デバイス上では強力なスタンドアロンエンコーダとして、また高性能なASRパイプラインの第1部として利用することができる。
論文 参考訳(メタデータ) (2023-03-31T23:30:48Z) - Sparse Periodic Systolic Dataflow for Lowering Latency and Power
Dissipation of Convolutional Neural Network Accelerators [3.043665249713003]
本稿では,SPS(Sparse periodic systolic)データフローについて紹介する。
PPSの規則性を活用することで、スパシティ対応コンパイラは重みを最適に並べ替え、ハードウェアの単純なインデックス化ユニットを使用して重みとアクティベーションの一致を生成する。
論文 参考訳(メタデータ) (2022-06-30T19:16:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。