論文の概要: Coordinated Reinforcement Learning Prefetching Architecture for Multicore Systems
- arxiv url: http://arxiv.org/abs/2509.10719v1
- Date: Fri, 12 Sep 2025 22:20:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.749527
- Title: Coordinated Reinforcement Learning Prefetching Architecture for Multicore Systems
- Title(参考訳): マルチコアシステムのための協調強化学習前処理アーキテクチャ
- Authors: Mohammed Humaid Siddiqui, Fernando Guzman, Yufei Wu, Ruishu Ann,
- Abstract要約: ハードウェアプリフェッチは、CPU速度とメモリアクセスの遅いパフォーマンスギャップを埋めるために重要である。
マルチコアアーキテクチャが一般的になるにつれ、従来のプリフェッチは深刻な課題となっている。
マルチコアシステムに特化して設計された強化学習に基づくプレファーであるCRL-Pythiaを提案する。
- 参考スコア(独自算出の注目度): 39.46846229519142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hardware prefetching is critical to fill the performance gap between CPU speeds and slower memory accesses. With multicore architectures becoming commonplace, traditional prefetchers are severely challenged. Independent core operation creates significant redundancy (up to 20% of prefetch requests are duplicates), causing unnecessary memory bus traffic and wasted bandwidth. Furthermore, cutting-edge prefetchers such as Pythia suffer from about a 10% performance loss when scaling from a single-core to a four-core system. To solve these problems, we propose CRL-Pythia, a coordinated reinforcement learning based prefetcher specifically designed for multicore systems. In this work, CRL-Pythia addresses these issues by enabling cross-core sharing of information and cooperative prefetching decisions, which greatly reduces redundant prefetch requests and improves learning convergence across cores. Our experiments demonstrate that CRL-Pythia outperforms single Pythia configurations in all cases, with approximately 12% IPC (instructions per cycle) improvement for bandwidth-constrained workloads, while imposing moderate hardware overhead. Our sensitivity analyses also verify its robustness and scalability, thereby making CRL-Pythia a practical and efficient solution to contemporary multicore systems.
- Abstract(参考訳): ハードウェアプリフェッチは、CPU速度とメモリアクセスの遅いパフォーマンスギャップを埋めるために重要である。
マルチコアアーキテクチャが一般的になるにつれ、従来のプリフェッチは深刻な課題となっている。
独立したコア操作は、大きな冗長性(プレフェッチ要求の20%は重複している)を生成し、不要なメモリバストラフィックと無駄な帯域幅を引き起こす。
さらに、Pythiaのような最先端のプリフェッチは、シングルコアから4コアシステムにスケールする場合、約10%のパフォーマンス損失を被る。
これらの問題を解決するために,マルチコアシステムに特化して設計された強化学習に基づくプレファーであるCRL-Pythiaを提案する。
本研究においてCRL-Pythiaは、情報のクロスコア共有と協調的プレフェッチ決定を可能にし、冗長なプレフェッチ要求を大幅に低減し、コア間の学習収束を改善することにより、これらの問題に対処する。
実験の結果,CRL-Pythiaは1つのPythia構成よりも優れており,帯域制限の負荷に対して約12%のIPC(命令毎の命令)が改善され,ハードウェアのオーバーヘッドは緩やかであることがわかった。
我々の感度解析は、その堅牢性とスケーラビリティを検証し、CRL-Pythiaを現代のマルチコアシステムに対する実用的で効率的なソリューションにする。
関連論文リスト
- Joker: Joint Optimization Framework for Lightweight Kernel Machines [20.45405359815043]
我々は,KRR,ロジスティック回帰,サポートベクタマシンなど,多様なカーネルモデルを対象とした共同最適化フレームワークJokerを提案する。
実験によると、Jokerは最大90%のメモリを節約できるが、最先端のメソッドよりもトレーニング時間とパフォーマンス(あるいはさらに良い)を達成する。
論文 参考訳(メタデータ) (2025-05-23T11:36:45Z) - A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。
まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。
3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文 参考訳(メタデータ) (2025-02-21T10:12:34Z) - COMPASS: A Compiler Framework for Resource-Constrained Crossbar-Array Based In-Memory Deep Learning Accelerators [6.172271429579593]
本稿では、資源制約付きクロスバーベース処理インメモリ(PIM)ディープニューラルネットワーク(DNN)アクセラレーターのためのコンパイラフレームワークを提案する。
本稿では,各パーティションをチップ上で高速化するために,各レイヤを分割する最適なパーティショニングを決定するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-12T11:31:25Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。
推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。
また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - Compute Or Load KV Cache? Why Not Both? [6.982874528357836]
Cakeは計算資源とI/Oリソースを並列に最適に利用する新しいKVキャッシュローディングシステムである。
Cakeは、計算のみの手法やI/Oのみの手法と比較して、TTFT(Time to First Token)の平均2.6倍の削減を実現している。
論文 参考訳(メタデータ) (2024-10-04T01:11:09Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Core interface optimization for multi-core neuromorphic processors [5.391889175209394]
スパイキングニューラルネットワーク(SNN)は、低消費電力と低レイテンシを必要とするアプリケーションのエッジコンピューティングに対する有望なアプローチである。
大規模かつスケーラブルなSNNを実現するためには,効率的な非同期通信およびルーティングファブリックを開発する必要がある。
論文 参考訳(メタデータ) (2023-08-08T10:00:14Z) - Dataflow Aware Mapping of Convolutional Neural Networks Onto Many-Core
Platforms With Network-on-Chip Interconnect [0.0764671395172401]
マシンインテリジェンス、特に畳み込みニューラルネットワーク(CNN)は、ここ数年で大きな研究領域となっている。
複数の同質なコアで構成される多コアプラットフォームは、データフローマッピングの労力の増大を犠牲にして、物理実装に関する制限を緩和することができる。
この作業は、最小限のランタイムと最小限のオフチップメモリアクセスに対して、最適化目標の異なるシングルコアレベルから始まる自動マッピング戦略を示す。
この戦略は、適切なマルチコアマッピング方式に拡張され、ネットワークオンチップ相互接続によるスケーラブルなシステムレベルシミュレーションを用いて評価される。
論文 参考訳(メタデータ) (2020-06-18T17:13:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。