論文の概要: Introducing Instruction-Accurate Simulators for Performance Estimation of Autotuning Workloads
- arxiv url: http://arxiv.org/abs/2505.13357v1
- Date: Mon, 19 May 2025 16:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.756576
- Title: Introducing Instruction-Accurate Simulators for Performance Estimation of Autotuning Workloads
- Title(参考訳): 自動作業負荷評価のためのインストラクション精度シミュレータの導入
- Authors: Rebecca Pelke, Nils Bosbach, Lennart M. Reimann, Rainer Leupers,
- Abstract要約: シミュレータ上で自動チューニングワークロードの実行を可能にするインターフェースを提案する。
我々は、ターゲットHW上でのMLワークロード実装の性能を予測するために、様々な予測器を訓練する。
その結果, 調整した予測器は高い有効性を示した。
- 参考スコア(独自算出の注目度): 0.18749305679160366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accelerating Machine Learning (ML) workloads requires efficient methods due to their large optimization space. Autotuning has emerged as an effective approach for systematically evaluating variations of implementations. Traditionally, autotuning requires the workloads to be executed on the target hardware (HW). We present an interface that allows executing autotuning workloads on simulators. This approach offers high scalability when the availability of the target HW is limited, as many simulations can be run in parallel on any accessible HW. Additionally, we evaluate the feasibility of using fast instruction-accurate simulators for autotuning. We train various predictors to forecast the performance of ML workload implementations on the target HW based on simulation statistics. Our results demonstrate that the tuned predictors are highly effective. The best workload implementation in terms of actual run time on the target HW is always within the top 3 % of predictions for the tested x86, ARM, and RISC-V-based architectures. In the best case, this approach outperforms native execution on the target HW for embedded architectures when running as few as three samples on three simulators in parallel.
- Abstract(参考訳): 機械学習(ML)ワークロードの高速化には、大規模な最適化スペースのため、効率的な方法が必要である。
自動チューニングは、実装のバリエーションを体系的に評価するための効果的なアプローチとして登場した。
従来、自動チューニングでは、ワークロードをターゲットハードウェア(HW)上で実行する必要があった。
シミュレータ上で自動チューニングワークロードの実行を可能にするインターフェースを提案する。
このアプローチは、ターゲットHWの可用性が制限された場合、多くのシミュレーションを任意のアクセス可能なHW上で並列に実行できるため、高いスケーラビリティを提供する。
さらに,自動チューニングのための高速命令精度シミュレータの実現可能性についても検討した。
我々は、シミュレーション統計に基づいて、ターゲットHW上でのMLワークロード実装の性能を予測するために、様々な予測器を訓練する。
その結果, 調整した予測器は高い有効性を示した。
HWの実際の実行時間は、テスト済みのx86、ARM、RISC-Vベースのアーキテクチャの予測の上位3パーセント以内である。
最善の場合、このアプローチは、3つのシミュレータ上で3つのサンプルを並列に実行する場合、組み込みアーキテクチャのターゲットHWでのネイティブ実行よりも優れています。
関連論文リスト
- Phantora: Live GPU Cluster Simulation for Machine Learning System Performance Estimation [11.48166268734119]
Phantoraは、パフォーマンス評価のためのライブGPUクラスタシミュレータである。
イベント駆動ネットワークシミュレータとライブシステム実行を統合する上で、いくつかの研究課題を克服する。
評価の結果,Phantoraは1つのGPUのみで,最先端のワークロードシミュレーション手法に類似した推定精度を実現できることがわかった。
論文 参考訳(メタデータ) (2025-05-02T22:36:24Z) - Fake Runs, Real Fixes -- Analyzing xPU Performance Through Simulation [4.573673188291683]
機械コードレベルでMLモデルを分析するための詳細な方法論であるxPU-Sharkを提案する。
xPU-Sharkは、アクセラレータ上で動作する運用デプロイメントのトレースをキャプチャして、修正されたマイクロアーキテクチャシミュレータで再生する。
共通通信集合を最大15%まで最適化し、トークン生成遅延を最大4.1%削減する。
論文 参考訳(メタデータ) (2025-03-18T23:15:02Z) - AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。
既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。
本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文 参考訳(メタデータ) (2025-02-27T14:46:22Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Tao: Re-Thinking DL-based Microarchitecture Simulation [8.501776613988484]
既存のマイクロアーキテクチャシミュレータは、異なる側面で優れ、不足している。
ディープラーニング(DL)ベースのシミュレーションは驚くほど高速で、精度は極めて高いが、適切な低レベルのマイクロアーキテクチャのパフォーマンス指標を提供することができない。
本稿では,3つの主要な貢献により,DLに基づくシミュレーションを再設計するTAOを紹介する。
論文 参考訳(メタデータ) (2024-04-16T21:45:10Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-14T15:51:35Z) - Data-Driven Offline Optimization For Architecting Hardware Accelerators [89.68870139177785]
PRIMEと呼ばれるハードウェアアクセラレータを設計するための,データ駆動型オフライン最適化手法を開発した。
PRIMEは、最先端のシミュレーション駆動方式の性能を約1.54倍と1.20倍に改善し、必要な総シミュレーション時間をそれぞれ93%と99%削減する。
さらにPRIMEは、ゼロショット設定で見えないアプリケーションのための効果的なアクセラレーターを設計し、シミュレーションベースの手法を1.26倍に向上させた。
論文 参考訳(メタデータ) (2021-10-20T17:06:09Z) - Optimizing Streaming Parallelism on Heterogeneous Many-Core
Architectures: A Machine Learning Based Approach [16.702537371391053]
本稿では、異種多コアアーキテクチャ上のタスクベース並列アプリケーションにおいて、ハードウェアリソース分割とタスク粒度に関する優れたソリューションを導出する自動手法を提案する。
提案手法では,与えられたリソース分割とタスクの粒度設定に基づいて,対象アプリケーションの結果のパフォーマンスを推定するために,性能モデルを用いる。
シングルストリームバージョンと比較すると,XeonPhiとGPUプラットフォームでそれぞれ1.6倍,1.1倍の高速化を実現している。
論文 参考訳(メタデータ) (2020-03-05T21:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。