論文の概要: HLSDataset: Open-Source Dataset for ML-Assisted FPGA Design using High
Level Synthesis
- arxiv url: http://arxiv.org/abs/2302.10977v1
- Date: Fri, 17 Feb 2023 17:00:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-26 13:32:53.252616
- Title: HLSDataset: Open-Source Dataset for ML-Assisted FPGA Design using High
Level Synthesis
- Title(参考訳): HLSDataset:高レベル合成を用いたML支援FPGA設計のためのオープンソースデータセット
- Authors: Zhigang Wei, Aman Arora, Lizy K. John
- Abstract要約: 本稿では,HLSを用いたML支援FPGA設計のためのデータセットであるHLSDatasetを提案する。
データセットはPolybench、Machsuite、CHStone、Rossettaなど、広く使用されているHLS Cベンチマークから生成される。
生成されたVerilogサンプルの総数はFPGAタイプあたり9000近い。
- 参考スコア(独自算出の注目度): 1.0635248457021496
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Machine Learning (ML) has been widely adopted in design exploration using
high level synthesis (HLS) to give a better and faster performance, and
resource and power estimation at very early stages for FPGA-based design. To
perform prediction accurately, high-quality and large-volume datasets are
required for training ML models.This paper presents a dataset for ML-assisted
FPGA design using HLS, called HLSDataset. The dataset is generated from widely
used HLS C benchmarks including Polybench, Machsuite, CHStone and Rossetta. The
Verilog samples are generated with a variety of directives including loop
unroll, loop pipeline and array partition to make sure optimized and realistic
designs are covered. The total number of generated Verilog samples is nearly
9,000 per FPGA type. To demonstrate the effectiveness of our dataset, we
undertake case studies to perform power estimation and resource usage
estimation with ML models trained with our dataset. All the codes and dataset
are public at the github repo.We believe that HLSDataset can save valuable time
for researchers by avoiding the tedious process of running tools, scripting and
parsing files to generate the dataset, and enable them to spend more time where
it counts, that is, in training ML models.
- Abstract(参考訳): 機械学習(ML)は、高レベル合成(HLS)を用いた設計探索において、FPGAベースの設計のごく初期段階において、より良く高速な性能とリソースと電力推定を提供するために広く採用されている。
mlモデルのトレーニングには、高精度かつ大容量のデータセットが必要となる。本論文は、hlsを用いたml支援fpga設計のためのデータセットであるhlsdatasetを提案する。
データセットはPolybench、Machsuite、CHStone、Rossettaなど、広く使用されているHLS Cベンチマークから生成される。
verilogのサンプルはループアンロール、ループパイプライン、配列パーティションなど様々なディレクティブで生成され、最適化され現実的なデザインがカバーされる。
生成されたVerilogサンプルの総数はFPGAタイプあたり9000近い。
本データセットの有効性を実証するため,本データセットで訓練したMLモデルを用いて,電力推定と資源使用量推定を行うケーススタディを行った。
すべてのコードとデータセットはgithubリポジトリで公開されています。HLSDatasetは、ツールの実行やスクリプティング、解析といった面倒なプロセスを回避し、データセットを生成することで、研究者にとって貴重な時間を節約できると考えています。
関連論文リスト
- Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation
in ultra low-data regimes [62.94611066903098]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - Optimal Data Generation in Multi-Dimensional Parameter Spaces, using
Bayesian Optimization [0.0]
本稿では,機械学習モデルを学習するための最小限の高情報データベースを構築するための新しい手法を提案する。
ガウス過程回帰(GPR)を用いた出力パラメータと入力パラメータの関係を模倣する。
GPRにより予測される標準偏差を考慮し,ベイジアン最適化を用いてデータ点を選択し,MLモデルの学習に有効なデータベースを得る。
論文 参考訳(メタデータ) (2023-12-04T16:36:29Z) - EDALearn: A Comprehensive RTL-to-Signoff EDA Benchmark for Democratized
and Reproducible ML for EDA Research [5.093676641214663]
我々はEDALearnを紹介した。EDALearnは、EDAの機械学習タスクに特化した、最初の包括的なオープンソースベンチマークスイートである。
このベンチマークスイートは、合成から物理実装までのエンドツーエンドのフローを示し、さまざまなステージにわたるデータ収集を強化する。
私たちの貢献はML-EDAドメインのさらなる進歩を促進することを目的としています。
論文 参考訳(メタデータ) (2023-12-04T06:51:46Z) - Data-Juicer: A One-Stop Data Processing System for Large Language Models [73.27731037450995]
データレシピは、大規模言語モデル(LLM)をトレーニングするための異なるソースからのデータの混合である。
我々はData-Juicerという新しいシステムを構築し、多様なデータレシピを効率的に生成できる。
Data-Juicerから派生したデータレシピは、最先端のLLMで顕著に改善されている。
論文 参考訳(メタデータ) (2023-09-05T08:22:07Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data
Selection for Instruction Tuning [54.222609226692015]
我々は大規模言語モデルのための自己誘導手法を導入し、大規模なオープンソースデータセットからサクラサンプルを自律的に識別し、選択する。
私たちの重要なイノベーションであるIFD(Instruction-Following Difficulty)メトリックは、モデルが期待する応答と自動生成技術との間の相違を識別するための重要なツールとして現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Data Race Detection Using Large Language Models [1.0013600887991827]
大規模言語モデル(LLM)は、高性能コンピューティングプログラムの分析と最適化を容易にする代替戦略である。
本稿では,工学的手法と微調整的手法を併用した,LLMに基づく新しいデータ競合検出手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T00:08:43Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - Open Graph Benchmark: Datasets for Machine Learning on Graphs [86.96887552203479]
スケーラブルで堅牢で再現可能なグラフ機械学習(ML)の研究を容易にするために,Open Graph Benchmark(OGB)を提案する。
OGBデータセットは大規模で、複数の重要なグラフMLタスクを含み、さまざまなドメインをカバーする。
各データセットに対して,有意義なアプリケーション固有のデータ分割と評価指標を用いた統一評価プロトコルを提供する。
論文 参考訳(メタデータ) (2020-05-02T03:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。