論文の概要: NeuroScalar: A Deep Learning Framework for Fast, Accurate, and In-the-Wild Cycle-Level Performance Prediction
- arxiv url: http://arxiv.org/abs/2509.22410v2
- Date: Mon, 29 Sep 2025 22:23:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 12:20:10.379417
- Title: NeuroScalar: A Deep Learning Framework for Fast, Accurate, and In-the-Wild Cycle-Level Performance Prediction
- Title(参考訳): NeuroScalar: 高速・高精度・インザ・ワイヤサイクルパフォーマンス予測のためのディープラーニングフレームワーク
- Authors: Shayne Wadle, Yanxin Zhang, Vikas Singh, Karthikeyan Sankaralingam,
- Abstract要約: 本稿では,生産ハードウェア上での高忠実なインザワイルドシミュレーションのための新しいディープラーニングフレームワークを提案する。
我々のコアコントリビューションは、仮説プロセッサ設計のためのサイクルレベルの性能を予測するために、マイクロアーキテクチャに依存しない機能に基づいて訓練されたDLモデルである。
このフレームワークは,大規模なハードウェアA/Bテストと正確な性能解析を可能にすることを実証する。
- 参考スコア(独自算出の注目度): 18.863968099669364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The evaluation of new microprocessor designs is constrained by slow, cycle-accurate simulators that rely on unrepresentative benchmark traces. This paper introduces a novel deep learning framework for high-fidelity, ``in-the-wild'' simulation on production hardware. Our core contribution is a DL model trained on microarchitecture-independent features to predict cycle-level performance for hypothetical processor designs. This unique approach allows the model to be deployed on existing silicon to evaluate future hardware. We propose a complete system featuring a lightweight hardware trace collector and a principled sampling strategy to minimize user impact. This system achieves a simulation speed of 5 MIPS on a commodity GPU, imposing a mere 0.1% performance overhead. Furthermore, our co-designed Neutrino on-chip accelerator improves performance by 85x over the GPU. We demonstrate that this framework enables accurate performance analysis and large-scale hardware A/B testing on a massive scale using real-world applications.
- Abstract(参考訳): 新しいマイクロプロセッサの設計の評価は、非表現的なベンチマークトレースに依存するサイクル精度の遅いシミュレータによって制約される。
本稿では,実運用ハードウェア上での 'in-the-wild' シミュレーションという,高忠実度のための新しいディープラーニングフレームワークを提案する。
我々のコアコントリビューションは、仮説プロセッサ設計のためのサイクルレベルの性能を予測するために、マイクロアーキテクチャに依存しない機能に基づいて訓練されたDLモデルである。
このユニークなアプローチにより、モデルを既存のシリコン上にデプロイして、将来のハードウェアを評価することが可能になる。
本稿では,ユーザへの影響を最小限に抑えるために,軽量なハードウェアトレースコレクタと原則的なサンプリング戦略を備えたシステムを提案する。
このシステムはコモディティGPU上で5MIPSのシミュレーション速度を達成し、わずか0.1%の性能オーバーヘッドを与える。
さらに、私たちの共同設計したNeutrino on-chipアクセラレータは、GPUの85倍の性能向上を実現しています。
本フレームワークは実世界のアプリケーションを用いて,大規模ハードウェアA/Bテストと高精度な性能解析を実現することを実証する。
関連論文リスト
- Phantora: Maximizing Code Reuse in Simulation-based Machine Learning System Performance Estimation [13.326000659635378]
Phantoraは、機械学習トレーニングワークロードのパフォーマンス見積のための、ハイブリッドGPUクラスタシミュレータである。
MLフレームワークのソースコードをシミュレーションで直接再利用することが可能で、再実装の必要がなくなる。
Phantoraは最先端のトレーニングフレームワークを3つサポートしている。
論文 参考訳(メタデータ) (2025-05-02T22:36:24Z) - Concorde: Fast and Accurate CPU Performance Modeling with Compositional Analytical-ML Fusion [15.06323814625609]
マイクロアーキテクチャの高速かつ正確な性能モデルを学ぶための新しい方法論であるConcordeを提案する。
Concordeは、異なるマイクロアーキテクチャーコンポーネントの影響を捉えた、コンパクトな性能分布に基づくプログラムの挙動を予測する。
実験の結果、Concordeは基準サイクルレベルのシミュレータよりも5桁以上高速であることがわかった。
論文 参考訳(メタデータ) (2025-03-29T13:25:20Z) - Fake Runs, Real Fixes -- Analyzing xPU Performance Through Simulation [4.573673188291683]
機械コードレベルでMLモデルを分析するための詳細な方法論であるxPU-Sharkを提案する。
xPU-Sharkは、アクセラレータ上で動作する運用デプロイメントのトレースをキャプチャして、修正されたマイクロアーキテクチャシミュレータで再生する。
共通通信集合を最大15%まで最適化し、トークン生成遅延を最大4.1%削減する。
論文 参考訳(メタデータ) (2025-03-18T23:15:02Z) - A Realistic Simulation Framework for Analog/Digital Neuromorphic Architectures [73.65190161312555]
ARCANAは、混合信号ニューロモルフィック回路の特性を考慮に入れたソフトウェアスパイクニューラルネットワークシミュレータである。
得られた結果が,ソフトウェアでトレーニングされたスパイクニューラルネットワークの動作を,かつてハードウェアにデプロイされた場合の信頼性の高い推定方法を示す。
論文 参考訳(メタデータ) (2024-09-23T11:16:46Z) - Enhancing Dropout-based Bayesian Neural Networks with Multi-Exit on FPGA [20.629635991749808]
本稿では,フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータを効率よく生成するアルゴリズムとハードウェアの共同設計フレームワークを提案する。
アルゴリズムレベルでは、計算とメモリのオーバーヘッドを低減した、新しいマルチエグジット・ドロップアウトベースのベイズNNを提案する。
ハードウェアレベルでは,提案する効率的なベイズNNのためのFPGAベースのアクセラレータを生成するための変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-20T17:08:42Z) - GPU-RANC: A CUDA Accelerated Simulation Framework for Neuromorphic Architectures [1.3401966602181168]
ニューロモーフィックコンピューティングのための再構成可能なアーキテクチャ(RANC)のGPUによる実装について紹介する。
512個のニューロモルフィックコアMNIST推論アプリケーションに基づくRANCシミュレータのシリアルバージョンと比較して,最大780倍の高速化を示した。
論文 参考訳(メタデータ) (2024-04-24T21:08:21Z) - Tao: Re-Thinking DL-based Microarchitecture Simulation [8.501776613988484]
既存のマイクロアーキテクチャシミュレータは、異なる側面で優れ、不足している。
ディープラーニング(DL)ベースのシミュレーションは驚くほど高速で、精度は極めて高いが、適切な低レベルのマイクロアーキテクチャのパフォーマンス指標を提供することができない。
本稿では,3つの主要な貢献により,DLに基づくシミュレーションを再設計するTAOを紹介する。
論文 参考訳(メタデータ) (2024-04-16T21:45:10Z) - MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。
MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。
また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2022-04-27T14:00:48Z) - MAPLE: Microprocessor A Priori for Latency Estimation [81.91509153539566]
現代のディープニューラルネットワークは、低レイテンシとエネルギー消費を示しながら最先端の精度を示す必要がある。
評価されたアーキテクチャのレイテンシの測定は、NASプロセスにかなりの時間を加えます。
転送学習やドメイン適応に依存しない推定用マイクロプロセッサAプライオリティを提案する。
論文 参考訳(メタデータ) (2021-11-30T03:52:15Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。