論文の概要: PAI: Fast, Accurate, and Full Benchmark Performance Projection with AI
- arxiv url: http://arxiv.org/abs/2603.19330v1
- Date: Wed, 18 Mar 2026 19:34:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:38.803826
- Title: PAI: Fast, Accurate, and Full Benchmark Performance Projection with AI
- Title(参考訳): PAI: AIによる高速、高精度、完全なベンチマークパフォーマンス予測
- Authors: Avery Johnson, Mohammad Majharul Islam, Riad Akram, Abdullah Muzahid,
- Abstract要約: 我々は,詳細なシミュレーションや命令ワイドエンコーディングに頼ることなく,ベンチマーク性能を正確に予測する最初の手法であるPAIを提案する。
PAIは、SPEC CPU 2017ベンチマークスイートで平均9.35%のIPC予測エラーを達成でき、スイート全体では2分57秒しかかからない。
この予測誤差は従来の最先端技術に匹敵するが、3桁の時間を要する。
- 参考スコア(独自算出の注目度): 0.6433095104138578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The exponential increase in complex IPs within modern SoCs, driven by Moore's Law, has created a pressing need for fast and accurate hardware-software power-performance analysis. Traditional performance simulators (such as cycle accurate simulators) are often too slow to simulate full benchmarks within a reasonable timeframe; require considerable effort for development, maintenance, and extensions; and are prone to errors, making pre-silicon performance projections and competitive analysis increasingly challenging. Prior attempts in addressing this challenge using machine learning fall short as they are either slow, inaccurate or unable to predict the performance of full benchmarks. To address these limitations, we present PAI, the first technique to accurately predict full benchmark performance without relying on detailed simulation or instruction-wise encoding. At the heart of PAI is a hierarchical Long Short Term Memory (LSTM)-based model that takes a trace of microarchitecture independent features from a program execution and predicts performance metrics. We present the detailed design, implementation and evaluation of PAI. Our initial experiments showed that PAI can achieve an average IPC prediction error of 9.35% for SPEC CPU 2017 benchmark suite while taking only 2 min 57 sec for the entire suite. This prediction error is comparable to prior state-of-the-art techniques while requiring 3 orders of magnitude less time.
- Abstract(参考訳): ムーアの法則によって駆動される現代のSoCにおける複雑なIPの指数関数的な増加は、高速で正確なハードウェア・ソフトウェア・パワーパフォーマンス分析の必要性を強く求めている。
従来の性能シミュレータ(サイクル精度シミュレータなど)は、適切な時間枠内で完全なベンチマークをシミュレートするには遅すぎることが多く、開発、保守、拡張にかなりの労力を要する。
機械学習を使ってこの問題に対処する以前の試みは、遅いか、不正確か、あるいは完全なベンチマークのパフォーマンスを予測できないため、不足している。
これらの制約に対処するために,詳細なシミュレーションや命令ワイドエンコーディングに頼ることなく,ベンチマーク性能を正確に予測する最初の手法であるPAIを提案する。
PAIの中心には、プログラム実行から独立したマイクロアーキテクチャのトレースを取得し、パフォーマンスメトリクスを予測する、階層的Long Short Term Memory(LSTM)ベースのモデルがある。
本稿では,PAIの設計,実装,評価について述べる。
最初の実験では、SPEC CPU 2017ベンチマークスイートでは平均IPC予測エラーが9.35%、スイート全体ではわずか2分57秒で達成できた。
この予測誤差は従来の最先端技術に匹敵するが、3桁の時間を要する。
関連論文リスト
- Beyond Test-Time Training: Learning to Reason via Hardware-Efficient Optimal Control [86.63490309209378]
我々は、最適制御として推論を定式化し、推論時に潜在状態に対して有限水平LQR計画を行うテスト時間制御層を導入する。
アーキテクチャ層として最適制御を組み込むことは、テスト時間トレーニングを超えた推論のための効果的でスケーラブルなメカニズムを提供することを実証する。
論文 参考訳(メタデータ) (2026-03-10T05:42:13Z) - Fast and Compact Tsetlin Machine Inference on CPUs Using Instruction-Level Optimization [0.4499833362998488]
Tsetlin Machine (TM) はCPUなどのリソース制限されたデバイスに高速な推論を提供する。
命令レベルビットワイド演算を利用したTMの効率的なソフトウェア実装を提案する。
本稿では,TMのand-based節評価を利用して不要な計算を回避する早期終了機構を提案する。
論文 参考訳(メタデータ) (2025-10-17T13:44:20Z) - NeuroScalar: A Deep Learning Framework for Fast, Accurate, and In-the-Wild Cycle-Level Performance Prediction [18.863968099669364]
本稿では,生産ハードウェア上での高忠実なインザワイルドシミュレーションのための新しいディープラーニングフレームワークを提案する。
我々のコアコントリビューションは、仮説プロセッサ設計のためのサイクルレベルの性能を予測するために、マイクロアーキテクチャに依存しない機能に基づいて訓練されたDLモデルである。
このフレームワークは,大規模なハードウェアA/Bテストと正確な性能解析を可能にすることを実証する。
論文 参考訳(メタデータ) (2025-09-26T14:36:06Z) - Controlling Thinking Speed in Reasoning Models [57.14541748751654]
人間の認知は、高速で直感的なシステム1思考と遅いシステム2思考の2つのモードで動作する。
本研究では,LRMが動的思考速度調整によって人間の知能を近似することを可能にする。
提案手法は, LRMにおける思考速度の制御方法と, 最適性能をいつ調整するかという2つの重要な問題に対処する。
論文 参考訳(メタデータ) (2025-07-04T16:41:06Z) - $\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。
我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文 参考訳(メタデータ) (2025-06-15T05:50:05Z) - MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。
ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:08:20Z) - MAPLE: Microprocessor A Priori for Latency Estimation [81.91509153539566]
現代のディープニューラルネットワークは、低レイテンシとエネルギー消費を示しながら最先端の精度を示す必要がある。
評価されたアーキテクチャのレイテンシの測定は、NASプロセスにかなりの時間を加えます。
転送学習やドメイン適応に依存しない推定用マイクロプロセッサAプライオリティを提案する。
論文 参考訳(メタデータ) (2021-11-30T03:52:15Z) - Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。
我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。
具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文 参考訳(メタデータ) (2020-09-15T01:59:17Z) - AIBench Training: Balanced Industry-Standard AI Training Benchmarking [26.820244556465333]
新しいAIアーキテクチャ/システムのアーリーステージ評価には、安価なベンチマークが必要だ。
私たちは現実世界のベンチマークを使って、学習力学に影響を与える要因をカバーしています。
私たちは、最も包括的なAIトレーニングベンチマークスイートにコントリビュートしています。
論文 参考訳(メタデータ) (2020-04-30T11:08:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。