Fugu-MT 論文翻訳(概要): Concorde: Fast and Accurate CPU Performance Modeling with Compositional Analytical-ML Fusion

論文の概要: Concorde: Fast and Accurate CPU Performance Modeling with Compositional Analytical-ML Fusion

arxiv url: http://arxiv.org/abs/2503.23076v1
Date: Sat, 29 Mar 2025 13:25:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-01 19:35:56.923719
Title: Concorde: Fast and Accurate CPU Performance Modeling with Compositional Analytical-ML Fusion
Title（参考訳）: Concorde: 合成分析-ML融合による高速かつ正確なCPU性能モデリング
Authors: Arash Nasr-Esfahany, Mohammad Alizadeh, Victor Lee, Hanna Alam, Brett W. Coon, David Culler, Vidushi Dadu, Martin Dixon, Henry M. Levy, Santosh Pandey, Parthasarathy Ranganathan, Amir Yazdanbakhsh,
Abstract要約: マイクロアーキテクチャの高速かつ正確な性能モデルを学ぶための新しい方法論であるConcordeを提案する。 Concordeは、異なるマイクロアーキテクチャーコンポーネントの影響を捉えた、コンパクトな性能分布に基づくプログラムの挙動を予測する。実験の結果、Concordeは基準サイクルレベルのシミュレータよりも5桁以上高速であることがわかった。
参考スコア（独自算出の注目度）: 15.06323814625609
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Cycle-level simulators such as gem5 are widely used in microarchitecture design, but they are prohibitively slow for large-scale design space explorations. We present Concorde, a new methodology for learning fast and accurate performance models of microarchitectures. Unlike existing simulators and learning approaches that emulate each instruction, Concorde predicts the behavior of a program based on compact performance distributions that capture the impact of different microarchitectural components. It derives these performance distributions using simple analytical models that estimate bounds on performance induced by each microarchitectural component, providing a simple yet rich representation of a program's performance characteristics across a large space of microarchitectural parameters. Experiments show that Concorde is more than five orders of magnitude faster than a reference cycle-level simulator, with about 2% average Cycles-Per-Instruction (CPI) prediction error across a range of SPEC, open-source, and proprietary benchmarks. This enables rapid design-space exploration and performance sensitivity analyses that are currently infeasible, e.g., in about an hour, we conducted a first-of-its-kind fine-grained performance attribution to different microarchitectural components across a diverse set of programs, requiring nearly 150 million CPI evaluations.
Abstract（参考訳）: gem5のようなサイクルレベルのシミュレータはマイクロアーキテクチャ設計で広く使われているが、大規模な設計宇宙探査では明らかに遅い。マイクロアーキテクチャの高速かつ正確な性能モデルを学ぶための新しい方法論であるConcordeを提案する。それぞれの命令をエミュレートする既存のシミュレータや学習アプローチとは異なり、Concordeはプログラムの振る舞いを予測する。これは、各マイクロアーキテクチャーコンポーネントによって誘導されるパフォーマンスのバウンダリを推定する単純な解析モデルを用いて、これらのパフォーマンス分布を導出し、マイクロアーキテクチャーパラメータの広い空間にわたるプログラムのパフォーマンス特性の単純かつリッチな表現を提供する。実験の結果、Concordeはリファレンスサイクルレベルのシミュレータよりも5桁以上高速で、SPEC、オープンソース、プロプライエタリなベンチマークで平均的なCPI(Cycles-Per-Instruction)予測誤差が約2%であることがわかった。これにより,現在実現不可能な設計空間探索と性能感度解析を約1時間で行うことができ,各プログラムの異なるマイクロアーキテクチャーコンポーネントに対して,1億5000万 CPI 評価を行うことができる。

関連論文リスト

MiniCPM4: Ultra-Efficient LLMs on End Devices [124.73631357883228]
MiniCPM4は、エンドサイドデバイス向けに明示的に設計された高効率な大規模言語モデル(LLM)である。この効率性は、モデルアーキテクチャ、トレーニングデータ、トレーニングアルゴリズム、推論システムという4つの重要な側面において、体系的な革新を通じて達成します。 MiniCPM4は、それぞれ0.5Bと8Bのパラメータを持つ2つのバージョンで利用可能である。
論文参考訳（メタデータ） (2025-06-09T16:16:50Z)
CARL: Causality-guided Architecture Representation Learning for an Interpretable Performance Predictor [6.014777261874645]
ニューラルアーキテクチャサーチ(NAS)の評価段階を加速する有望な手法として、性能予測器が登場した。本稿では,アーキテクチャのクリティカルな(因果的)特徴と冗長な(非因果的)特徴を分離し,一般化可能なアーキテクチャ性能予測を目的とした因果性誘導型アーキテクチャ表現学習(CARL)手法を提案する。 5つのNAS探索空間の実験は、CARLの最先端の精度と優れた解釈可能性を示している。
論文参考訳（メタデータ） (2025-06-04T14:30:55Z)
Leveraging Neural Graph Compilers in Machine Learning Research for Edge-Cloud Systems [5.241450170761232]
この研究は、異種ハードウェアプラットフォーム間でのニューラルネットワークグラフコンパイラの包括的な評価を示す。系統解析により,グラフコンパイラは,ニューラルネットワークとバッチサイズの両方に依存する性能パターンを示すことがわかった。バッチサイズが大きくなるにつれて、パフォーマンスの摩擦を軽減するコンパイラの能力を定量化する新しいメトリクスを導入します。
論文参考訳（メタデータ） (2025-04-28T19:02:16Z)
ZeroLM: Data-Free Transformer Architecture Search for Language Models [54.83882149157548]
現在の自動プロキシ発見アプローチは、検索時間の拡張、データの過度なオーバーフィットへの感受性、構造的な複雑さに悩まされている。本稿では,効率的な重み統計によるモデルキャパシティの定量化を目的とした,新しいゼロコストプロキシ手法を提案する。本評価は,FlexiBERT ベンチマークで Spearman's rho 0.76 と Kendall's tau 0.53 を達成し,このアプローチの優位性を示すものである。
論文参考訳（メタデータ） (2025-03-24T13:11:22Z)
Accelerating TinyML Inference on Microcontrollers through Approximate Kernels [3.566060656925169]
本研究では、近似計算とソフトウェアカーネル設計を組み合わせることで、マイクロコントローラ上での近似CNNモデルの推定を高速化する。 CIFAR-10データセットでトレーニングされたSTM32-Nucleoボードと2つの人気のあるCNNによる評価は、最先端の正確な推測と比較すると、平均21%のレイテンシ削減が可能であることを示している。
論文参考訳（メタデータ） (2024-09-25T11:10:33Z)
Automatic Generation of Fast and Accurate Performance Models for Deep Neural Network Accelerators [33.18173790144853]
本稿では,Deep Neural Networks (DNN) のレイテンシを正確に推定する高速性能モデルのための自動生成手法を提案する。我々は、Gemmini、UltraTrail、Plastinine由来、パラメータ化可能なシストリックアレイなどの代表的DNNアクセラレータをモデル化した。ループカーネルを154回繰り返して評価し,419億命令のパフォーマンスを推定し,大幅な高速化を実現した。
論文参考訳（メタデータ） (2024-09-13T07:27:55Z)
Mechanistic Design and Scaling of Hybrid Architectures [114.3129802943915]
我々は、様々な計算プリミティブから構築された新しいハイブリッドアーキテクチャを特定し、テストする。本研究では,大規模計算最適法則と新しい状態最適スケーリング法則解析を用いて,結果のアーキテクチャを実験的に検証する。我々は,MAD合成法と計算-最適パープレキシティを相関させ,新しいアーキテクチャの正確な評価を可能にする。
論文参考訳（メタデータ） (2024-03-26T16:33:12Z)
Learning Generalizable Program and Architecture Representations for Performance Modeling [0.3277163122167434]
PerfVecは、新しいディープラーニングベースのパフォーマンスモデリングフレームワークである。高次元および独立/直交プログラムとマイクロアーキテクチャ表現を学習する。 PerfVecは、命令のパフォーマンスの本質をキャプチャする基盤モデルを生成する。
論文参考訳（メタデータ） (2023-10-25T17:24:01Z)
ArchGym: An Open-Source Gymnasium for Machine Learning Assisted Architecture Design [52.57999109204569]
ArchGymは、さまざまな検索アルゴリズムをアーキテクチャシミュレータに接続するオープンソースのフレームワークである。我々は、カスタムメモリコントローラ、ディープニューラルネットワークアクセラレータ、AR/VRワークロード用のカスタムSOCを設計する際に、複数のバニラおよびドメイン固有の検索アルゴリズムにわたってArchGymを評価する。
論文参考訳（メタデータ） (2023-06-15T06:41:23Z)
Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。 Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文参考訳（メタデータ） (2022-06-02T06:06:29Z)
Accelerating Training and Inference of Graph Neural Networks with Fast Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。本稿では,これらのボトルネックを緩和する一連の改良点について述べる。また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文参考訳（メタデータ） (2021-10-16T02:41:35Z)
Efficient Micro-Structured Weight Unification and Pruning for Neural Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文参考訳（メタデータ） (2021-06-15T17:22:59Z)
STONNE: A Detailed Architectural Simulator for Flexible Neural Network Accelerators [5.326345912766044]
STONNEはサイクル精度が高く、高度にモジュール化され、高度に拡張可能なシミュレーションフレームワークである。一般に公開されているBSV符号化MAERIの実装の性能結果にどのように近づくかを示す。
論文参考訳（メタデータ） (2020-06-10T19:20:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。