論文の概要: Concorde: Fast and Accurate CPU Performance Modeling with Compositional Analytical-ML Fusion
- arxiv url: http://arxiv.org/abs/2503.23076v1
- Date: Sat, 29 Mar 2025 13:25:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:32:40.287374
- Title: Concorde: Fast and Accurate CPU Performance Modeling with Compositional Analytical-ML Fusion
- Title(参考訳): Concorde: 合成分析-ML融合による高速かつ正確なCPU性能モデリング
- Authors: Arash Nasr-Esfahany, Mohammad Alizadeh, Victor Lee, Hanna Alam, Brett W. Coon, David Culler, Vidushi Dadu, Martin Dixon, Henry M. Levy, Santosh Pandey, Parthasarathy Ranganathan, Amir Yazdanbakhsh,
- Abstract要約: マイクロアーキテクチャの高速かつ正確な性能モデルを学ぶための新しい方法論であるConcordeを提案する。
Concordeは、異なるマイクロアーキテクチャーコンポーネントの影響を捉えた、コンパクトな性能分布に基づくプログラムの挙動を予測する。
実験の結果、Concordeは基準サイクルレベルのシミュレータよりも5桁以上高速であることがわかった。
- 参考スコア(独自算出の注目度): 15.06323814625609
- License:
- Abstract: Cycle-level simulators such as gem5 are widely used in microarchitecture design, but they are prohibitively slow for large-scale design space explorations. We present Concorde, a new methodology for learning fast and accurate performance models of microarchitectures. Unlike existing simulators and learning approaches that emulate each instruction, Concorde predicts the behavior of a program based on compact performance distributions that capture the impact of different microarchitectural components. It derives these performance distributions using simple analytical models that estimate bounds on performance induced by each microarchitectural component, providing a simple yet rich representation of a program's performance characteristics across a large space of microarchitectural parameters. Experiments show that Concorde is more than five orders of magnitude faster than a reference cycle-level simulator, with about 2% average Cycles-Per-Instruction (CPI) prediction error across a range of SPEC, open-source, and proprietary benchmarks. This enables rapid design-space exploration and performance sensitivity analyses that are currently infeasible, e.g., in about an hour, we conducted a first-of-its-kind fine-grained performance attribution to different microarchitectural components across a diverse set of programs, requiring nearly 150 million CPI evaluations.
- Abstract(参考訳): gem5のようなサイクルレベルのシミュレータはマイクロアーキテクチャ設計で広く使われているが、大規模な設計宇宙探査では明らかに遅い。
マイクロアーキテクチャの高速かつ正確な性能モデルを学ぶための新しい方法論であるConcordeを提案する。
それぞれの命令をエミュレートする既存のシミュレータや学習アプローチとは異なり、Concordeはプログラムの振る舞いを予測する。
これは、各マイクロアーキテクチャーコンポーネントによって誘導されるパフォーマンスのバウンダリを推定する単純な解析モデルを用いて、これらのパフォーマンス分布を導出し、マイクロアーキテクチャーパラメータの広い空間にわたるプログラムのパフォーマンス特性の単純かつリッチな表現を提供する。
実験の結果、Concordeはリファレンスサイクルレベルのシミュレータよりも5桁以上高速で、SPEC、オープンソース、プロプライエタリなベンチマークで平均的なCPI(Cycles-Per-Instruction)予測誤差が約2%であることがわかった。
これにより,現在実現不可能な設計空間探索と性能感度解析を約1時間で行うことができ,各プログラムの異なるマイクロアーキテクチャーコンポーネントに対して,1億5000万 CPI 評価を行うことができる。
関連論文リスト
- Accelerating TinyML Inference on Microcontrollers through Approximate Kernels [3.566060656925169]
本研究では、近似計算とソフトウェアカーネル設計を組み合わせることで、マイクロコントローラ上での近似CNNモデルの推定を高速化する。
CIFAR-10データセットでトレーニングされたSTM32-Nucleoボードと2つの人気のあるCNNによる評価は、最先端の正確な推測と比較すると、平均21%のレイテンシ削減が可能であることを示している。
論文 参考訳(メタデータ) (2024-09-25T11:10:33Z) - Automatic Generation of Fast and Accurate Performance Models for Deep Neural Network Accelerators [33.18173790144853]
本稿では,Deep Neural Networks (DNN) のレイテンシを正確に推定する高速性能モデルのための自動生成手法を提案する。
我々は、Gemmini、UltraTrail、Plastinine由来、パラメータ化可能なシストリックアレイなどの代表的DNNアクセラレータをモデル化した。
ループカーネルを154回繰り返して評価し,419億命令のパフォーマンスを推定し,大幅な高速化を実現した。
論文 参考訳(メタデータ) (2024-09-13T07:27:55Z) - Mechanistic Design and Scaling of Hybrid Architectures [114.3129802943915]
我々は、様々な計算プリミティブから構築された新しいハイブリッドアーキテクチャを特定し、テストする。
本研究では,大規模計算最適法則と新しい状態最適スケーリング法則解析を用いて,結果のアーキテクチャを実験的に検証する。
我々は,MAD合成法と計算-最適パープレキシティを相関させ,新しいアーキテクチャの正確な評価を可能にする。
論文 参考訳(メタデータ) (2024-03-26T16:33:12Z) - Accelerating Computer Architecture Simulation through Machine Learning [0.07252027234425332]
本稿では,機械学習技術を活用したコンピュータアーキテクチャシミュレーションの高速化手法を提案する。
提案モデルは,アプリケーションの性能を予測するために,アプリケーション機能とマイクロアーキテクチャ機能の組み合わせを利用する。
アーキテクチャ探索において大きなスピードアップを提供する機械学習モデルを構築し,評価することで,我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-28T23:00:57Z) - Learning Generalizable Program and Architecture Representations for Performance Modeling [0.3277163122167434]
PerfVecは、新しいディープラーニングベースのパフォーマンスモデリングフレームワークである。
高次元および独立/直交プログラムとマイクロアーキテクチャ表現を学習する。
PerfVecは、命令のパフォーマンスの本質をキャプチャする基盤モデルを生成する。
論文 参考訳(メタデータ) (2023-10-25T17:24:01Z) - ArchGym: An Open-Source Gymnasium for Machine Learning Assisted
Architecture Design [52.57999109204569]
ArchGymは、さまざまな検索アルゴリズムをアーキテクチャシミュレータに接続するオープンソースのフレームワークである。
我々は、カスタムメモリコントローラ、ディープニューラルネットワークアクセラレータ、AR/VRワークロード用のカスタムSOCを設計する際に、複数のバニラおよびドメイン固有の検索アルゴリズムにわたってArchGymを評価する。
論文 参考訳(メタデータ) (2023-06-15T06:41:23Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - STONNE: A Detailed Architectural Simulator for Flexible Neural Network
Accelerators [5.326345912766044]
STONNEはサイクル精度が高く、高度にモジュール化され、高度に拡張可能なシミュレーションフレームワークである。
一般に公開されているBSV符号化MAERIの実装の性能結果にどのように近づくかを示す。
論文 参考訳(メタデータ) (2020-06-10T19:20:52Z) - When Residual Learning Meets Dense Aggregation: Rethinking the
Aggregation of Deep Neural Networks [57.0502745301132]
我々は,グローバルな残差学習と局所的なマイクロセンスアグリゲーションを備えた新しいアーキテクチャであるMicro-Dense Netsを提案する。
我々のマイクロセンスブロックはニューラルアーキテクチャ検索に基づくモデルと統合して性能を向上させることができる。
論文 参考訳(メタデータ) (2020-04-19T08:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。