論文の概要: wa-hls4ml: A Benchmark and Surrogate Models for hls4ml Resource and Latency Estimation
- arxiv url: http://arxiv.org/abs/2511.05615v1
- Date: Thu, 06 Nov 2025 17:18:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.499204
- Title: wa-hls4ml: A Benchmark and Surrogate Models for hls4ml Resource and Latency Estimation
- Title(参考訳): wa-hls4ml: hls4mlリソースとレイテンシ推定のためのベンチマークとサロゲートモデル
- Authors: Benjamin Hawks, Jason Weitz, Dmitri Demler, Karla Tame-Narvaez, Dennis Plotnikov, Mohammad Mehdi Rahimifar, Hamza Ezzaoui Rahali, Audrey C. Therrien, Donovan Sproule, Elham E Khoda, Keegan A. Smith, Russell Marroquin, Giuseppe Di Guglielmo, Nhan Tran, Javier Duarte, Vladimir Loncar,
- Abstract要約: MLアクセラレータリソースと遅延推定のためのベンチマークであるwa-hls4mlを紹介する。
また、MLアクセラレータのレイテンシとリソースを予測するGNNおよびトランスフォーマーベースのサロゲートモデルも導入する。
- 参考スコア(独自算出の注目度): 1.2929845407528824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As machine learning (ML) is increasingly implemented in hardware to address real-time challenges in scientific applications, the development of advanced toolchains has significantly reduced the time required to iterate on various designs. These advancements have solved major obstacles, but also exposed new challenges. For example, processes that were not previously considered bottlenecks, such as hardware synthesis, are becoming limiting factors in the rapid iteration of designs. To mitigate these emerging constraints, multiple efforts have been undertaken to develop an ML-based surrogate model that estimates resource usage of ML accelerator architectures. We introduce wa-hls4ml, a benchmark for ML accelerator resource and latency estimation, and its corresponding initial dataset of over 680,000 fully connected and convolutional neural networks, all synthesized using hls4ml and targeting Xilinx FPGAs. The benchmark evaluates the performance of resource and latency predictors against several common ML model architectures, primarily originating from scientific domains, as exemplar models, and the average performance across a subset of the dataset. Additionally, we introduce GNN- and transformer-based surrogate models that predict latency and resources for ML accelerators. We present the architecture and performance of the models and find that the models generally predict latency and resources for the 75% percentile within several percent of the synthesized resources on the synthetic test dataset.
- Abstract(参考訳): 機械学習(ML)は、科学応用におけるリアルタイムな課題に対処するためにハードウェアでますます実装されているため、高度なツールチェーンの開発は、様々な設計を反復するのに要する時間を著しく削減している。
これらの進歩は大きな障害を解決しただけでなく、新たな課題も明らかにした。
例えば、ハードウェア合成のような以前ボトルネックと考えられていなかったプロセスは、設計の迅速なイテレーションにおいて制限要因となっている。
これらの制約を緩和するために、MLアクセラレーターアーキテクチャのリソース使用量を見積もるMLベースのサロゲートモデルを開発するために、複数の取り組みがなされている。
我々は、MLアクセラレータリソースと遅延推定のためのベンチマークであるwa-hls4mlと、対応する680,000以上の完全に接続された畳み込みニューラルネットワークの初期データセットを、hls4mlとXilinx FPGAを使用して合成した。
このベンチマークは、いくつかの一般的なMLモデルアーキテクチャに対して、リソースと遅延予測器のパフォーマンスを評価し、主に科学的ドメインから派生した、典型的なモデルとして、データセットのサブセットの平均的なパフォーマンスを評価する。
さらに、機械学習アクセラレーターのレイテンシとリソースを予測するGNNおよびトランスフォーマーベースのサロゲートモデルを導入する。
モデルの構造と性能を示し、モデルが一般的に、合成テストデータセット上で合成されたリソースの 75% の待ち時間とリソースを予測することを発見した。
関連論文リスト
- SVTime: Small Time Series Forecasting Models Informed by "Physics" of Large Vision Model Forecasters [86.38433605933515]
動的Webコンテンツを分析するには時系列AIが不可欠だ。
エネルギー集約的なトレーニング、推論、ハードウェアの要求を考えると、大きなモデルを1フィットのソリューションとして使うと、二酸化炭素のフットプリントと持続可能性に対する深刻な懸念が浮かび上がっています。
本稿では、長期時系列予測(LTSF)のための大型ビジョンモデル(LVM)予測器にインスパイアされた新しい小型モデルSVTimeを紹介する。
論文 参考訳(メタデータ) (2025-10-10T18:42:23Z) - Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。
異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。
我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文 参考訳(メタデータ) (2025-08-20T17:59:51Z) - QuantVSR: Low-Bit Post-Training Quantization for Real-World Video Super-Resolution [53.13952833016505]
実世界のビデオ超解像(VSR)のための低ビット量子化モデルを提案する。
キャリブレーションデータセットを用いて各レイヤの空間的および時間的複雑さを計測する。
我々はFPおよび低ビット分岐を改良し、同時最適化を実現する。
論文 参考訳(メタデータ) (2025-08-06T14:35:59Z) - FINN-GL: Generalized Mixed-Precision Extensions for FPGA-Accelerated LSTMs [10.064394911426422]
リカレントニューラルネットワーク(RNN)は、感情分析や短期株価予測といった時系列タスクに有効である。
その計算複雑性は、リソース制約のある環境でのリアルタイムデプロイメントに課題をもたらす。
FPGAはエネルギー効率の高いAIアクセラレーションのための有望なプラットフォームを提供する。
論文 参考訳(メタデータ) (2025-06-25T20:07:46Z) - Estimating Voltage Drop: Models, Features and Data Representation Towards a Neural Surrogate [1.7010199949406575]
集積回路(IC)において、機械学習(ML)技術が計算労力を減らし、電圧低下を推定するのに要する時間を暗黙的に削減する方法について検討する。
我々のアプローチはASICの電気的、タイミング的、物理的にMLモデルを訓練し、最小限の調整を施した多種多様な設計への適応性を確保する。
本研究は,IRドロップを正確に推定し,ASICサインオフを最適化するMLアルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2025-02-07T21:31:13Z) - Automatic Generation of Fast and Accurate Performance Models for Deep Neural Network Accelerators [33.18173790144853]
本稿では,Deep Neural Networks (DNN) のレイテンシを正確に推定する高速性能モデルのための自動生成手法を提案する。
我々は、Gemmini、UltraTrail、Plastinine由来、パラメータ化可能なシストリックアレイなどの代表的DNNアクセラレータをモデル化した。
ループカーネルを154回繰り返して評価し,419億命令のパフォーマンスを推定し,大幅な高速化を実現した。
論文 参考訳(メタデータ) (2024-09-13T07:27:55Z) - rule4ml: An Open-Source Tool for Resource Utilization and Latency Estimation for ML Models on FPGA [0.0]
本稿では、FPGA上での合成と実装に先立って、ニューラルネットワーク(NN)のリソース利用と推論遅延を予測する新しい手法を提案する。
NNを高レベル合成(HLS)コードに変換するツールフローであるHLS4MLを活用している。
本手法では, 即時前合成予測に適応した回帰モデルを用いる。
論文 参考訳(メタデータ) (2024-08-09T19:35:10Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - LEAPER: Modeling Cloud FPGA-based Systems via Transfer Learning [13.565689665335697]
LEAPERは,既存のMLベースモデルを未知の環境に適応させるFPGAベースのシステムに対して,トランスファーラーニングに基づくアプローチを提案する。
その結果,5ショットの学習を行うクラウド環境において,移動モデルを用いて予測を行う場合,平均85%の精度が得られた。
論文 参考訳(メタデータ) (2022-08-22T21:25:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。