論文の概要: HLSDataset: Open-Source Dataset for ML-Assisted FPGA Design using High
Level Synthesis
- arxiv url: http://arxiv.org/abs/2302.10977v1
- Date: Fri, 17 Feb 2023 17:00:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-26 13:32:53.252616
- Title: HLSDataset: Open-Source Dataset for ML-Assisted FPGA Design using High
Level Synthesis
- Title(参考訳): HLSDataset:高レベル合成を用いたML支援FPGA設計のためのオープンソースデータセット
- Authors: Zhigang Wei, Aman Arora, Lizy K. John
- Abstract要約: 本稿では,HLSを用いたML支援FPGA設計のためのデータセットであるHLSDatasetを提案する。
データセットはPolybench、Machsuite、CHStone、Rossettaなど、広く使用されているHLS Cベンチマークから生成される。
生成されたVerilogサンプルの総数はFPGAタイプあたり9000近い。
- 参考スコア(独自算出の注目度): 1.0635248457021496
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Machine Learning (ML) has been widely adopted in design exploration using
high level synthesis (HLS) to give a better and faster performance, and
resource and power estimation at very early stages for FPGA-based design. To
perform prediction accurately, high-quality and large-volume datasets are
required for training ML models.This paper presents a dataset for ML-assisted
FPGA design using HLS, called HLSDataset. The dataset is generated from widely
used HLS C benchmarks including Polybench, Machsuite, CHStone and Rossetta. The
Verilog samples are generated with a variety of directives including loop
unroll, loop pipeline and array partition to make sure optimized and realistic
designs are covered. The total number of generated Verilog samples is nearly
9,000 per FPGA type. To demonstrate the effectiveness of our dataset, we
undertake case studies to perform power estimation and resource usage
estimation with ML models trained with our dataset. All the codes and dataset
are public at the github repo.We believe that HLSDataset can save valuable time
for researchers by avoiding the tedious process of running tools, scripting and
parsing files to generate the dataset, and enable them to spend more time where
it counts, that is, in training ML models.
- Abstract(参考訳): 機械学習(ML)は、高レベル合成(HLS)を用いた設計探索において、FPGAベースの設計のごく初期段階において、より良く高速な性能とリソースと電力推定を提供するために広く採用されている。
mlモデルのトレーニングには、高精度かつ大容量のデータセットが必要となる。本論文は、hlsを用いたml支援fpga設計のためのデータセットであるhlsdatasetを提案する。
データセットはPolybench、Machsuite、CHStone、Rossettaなど、広く使用されているHLS Cベンチマークから生成される。
verilogのサンプルはループアンロール、ループパイプライン、配列パーティションなど様々なディレクティブで生成され、最適化され現実的なデザインがカバーされる。
生成されたVerilogサンプルの総数はFPGAタイプあたり9000近い。
本データセットの有効性を実証するため,本データセットで訓練したMLモデルを用いて,電力推定と資源使用量推定を行うケーススタディを行った。
すべてのコードとデータセットはgithubリポジトリで公開されています。HLSDatasetは、ツールの実行やスクリプティング、解析といった面倒なプロセスを回避し、データセットを生成することで、研究者にとって貴重な時間を節約できると考えています。
関連論文リスト
- OpenLS-DGF: An Adaptive Open-Source Dataset Generation Framework for Machine Learning Tasks in Logic Synthesis [11.073500440401894]
OpenLS-DGFは適応論理合成データセット生成フレームワークである。
論理合成の3つの基本的なステップをカプセル化することにより、さまざまな機械学習タスクをサポートする。
生成されたOpenLS-D-v1データセットは、確立されたベンチマークから46の組合せ設計で構成されている。
論文 参考訳(メタデータ) (2024-11-14T13:18:06Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - rule4ml: An Open-Source Tool for Resource Utilization and Latency Estimation for ML Models on FPGA [0.0]
本稿では、FPGA上での合成と実装に先立って、ニューラルネットワーク(NN)のリソース利用と推論遅延を予測する新しい手法を提案する。
NNを高レベル合成(HLS)コードに変換するツールフローであるHLS4MLを活用している。
本手法では, 即時前合成予測に適応した回帰モデルを用いる。
論文 参考訳(メタデータ) (2024-08-09T19:35:10Z) - Scaling Retrieval-Based Language Models with a Trillion-Token Datastore [85.4310806466002]
検索ベースLMが使用するデータストアのサイズを増大させることで,言語モデリングや下流タスクを一元的に改善できることがわかった。
データストア、モデル、事前学習データサイズで計算最適スケーリング曲線をプロットすることにより、より大きなデータストアを使用することで、同じトレーニング計算予算のモデル性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-07-09T08:27:27Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
Genixerは4つの重要なステップからなる包括的なデータ生成パイプラインである。
LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10のパフォーマンスを向上させる。
タスク固有のデータセットで訓練されたMLLMは、複雑な命令チューニングデータを生成する際に、GPT-4Vを超えることができる。
論文 参考訳(メタデータ) (2023-12-11T09:44:41Z) - EDALearn: A Comprehensive RTL-to-Signoff EDA Benchmark for Democratized
and Reproducible ML for EDA Research [5.093676641214663]
我々はEDALearnを紹介した。EDALearnは、EDAの機械学習タスクに特化した、最初の包括的なオープンソースベンチマークスイートである。
このベンチマークスイートは、合成から物理実装までのエンドツーエンドのフローを示し、さまざまなステージにわたるデータ収集を強化する。
私たちの貢献はML-EDAドメインのさらなる進歩を促進することを目的としています。
論文 参考訳(メタデータ) (2023-12-04T06:51:46Z) - Data-Juicer: A One-Stop Data Processing System for Large Language Models [73.27731037450995]
データレシピは、大規模言語モデル(LLM)をトレーニングするための異なるソースからのデータの混合である。
我々はData-Juicerという新しいシステムを構築し、多様なデータレシピを効率的に生成できる。
Data-Juicerから派生したデータレシピは、最先端のLLMで顕著に改善されている。
論文 参考訳(メタデータ) (2023-09-05T08:22:07Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。