Fugu-MT 論文翻訳(概要): HLSDataset: Open-Source Dataset for ML-Assisted FPGA Design using High Level Synthesis

論文の概要: HLSDataset: Open-Source Dataset for ML-Assisted FPGA Design using High Level Synthesis

arxiv url: http://arxiv.org/abs/2302.10977v1
Date: Fri, 17 Feb 2023 17:00:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-26 13:32:53.252616
Title: HLSDataset: Open-Source Dataset for ML-Assisted FPGA Design using High Level Synthesis
Title（参考訳）: HLSDataset:高レベル合成を用いたML支援FPGA設計のためのオープンソースデータセット
Authors: Zhigang Wei, Aman Arora, Lizy K. John
Abstract要約: 本稿では,HLSを用いたML支援FPGA設計のためのデータセットであるHLSDatasetを提案する。データセットはPolybench、Machsuite、CHStone、Rossettaなど、広く使用されているHLS Cベンチマークから生成される。生成されたVerilogサンプルの総数はFPGAタイプあたり9000近い。
参考スコア（独自算出の注目度）: 1.0635248457021496
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Machine Learning (ML) has been widely adopted in design exploration using high level synthesis (HLS) to give a better and faster performance, and resource and power estimation at very early stages for FPGA-based design. To perform prediction accurately, high-quality and large-volume datasets are required for training ML models.This paper presents a dataset for ML-assisted FPGA design using HLS, called HLSDataset. The dataset is generated from widely used HLS C benchmarks including Polybench, Machsuite, CHStone and Rossetta. The Verilog samples are generated with a variety of directives including loop unroll, loop pipeline and array partition to make sure optimized and realistic designs are covered. The total number of generated Verilog samples is nearly 9,000 per FPGA type. To demonstrate the effectiveness of our dataset, we undertake case studies to perform power estimation and resource usage estimation with ML models trained with our dataset. All the codes and dataset are public at the github repo.We believe that HLSDataset can save valuable time for researchers by avoiding the tedious process of running tools, scripting and parsing files to generate the dataset, and enable them to spend more time where it counts, that is, in training ML models.
Abstract（参考訳）: 機械学習(ML)は、高レベル合成(HLS)を用いた設計探索において、FPGAベースの設計のごく初期段階において、より良く高速な性能とリソースと電力推定を提供するために広く採用されている。 mlモデルのトレーニングには、高精度かつ大容量のデータセットが必要となる。本論文は、hlsを用いたml支援fpga設計のためのデータセットであるhlsdatasetを提案する。データセットはPolybench、Machsuite、CHStone、Rossettaなど、広く使用されているHLS Cベンチマークから生成される。 verilogのサンプルはループアンロール、ループパイプライン、配列パーティションなど様々なディレクティブで生成され、最適化され現実的なデザインがカバーされる。生成されたVerilogサンプルの総数はFPGAタイプあたり9000近い。本データセットの有効性を実証するため,本データセットで訓練したMLモデルを用いて,電力推定と資源使用量推定を行うケーススタディを行った。すべてのコードとデータセットはgithubリポジトリで公開されています。HLSDatasetは、ツールの実行やスクリプティング、解析といった面倒なプロセスを回避し、データセットを生成することで、研究者にとって貴重な時間を節約できると考えています。

関連論文リスト

VerilogDB: The Largest, Highest-Quality Dataset with a Preprocessing Framework for LLM-based RTL Generation [1.0798445660490976]
大規模言語モデル(LLM)は、特にレジスタ転送レベル(RTL)コード生成を通じて、ハードウェア設計自動化において人気が高まっている。データベース(DB)の作成と管理を含む3段階の自動化プロセスを通じて,ロバストなVerilogデータセットを構築した。得られたデータセットは、20,392のVerilogサンプルと751MBのVerilogコードデータからなる。
論文参考訳（メタデータ） (2025-07-09T17:06:54Z)
ForgeHLS: A Large-Scale, Open-Source Dataset for High-Level Synthesis [13.87691887333415]
本稿では,機械学習(ML)駆動型HLS研究用に明示的に設計された大規模オープンソースデータセットであるForgeHLSを紹介する。 ForgeHLSは、広範囲のアプリケーションドメインをカバーする846のカーネルから生成される400万以上の多様な設計で構成されている。既存のデータセットと比較して、ForgeHLSはスケール、多様性、設計カバレッジを大幅に向上する。
論文参考訳（メタデータ） (2025-07-04T02:23:46Z)
UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文参考訳（メタデータ） (2025-02-17T05:37:02Z)
OpenLS-DGF: An Adaptive Open-Source Dataset Generation Framework for Machine Learning Tasks in Logic Synthesis [11.073500440401894]
OpenLS-DGFは適応論理合成データセット生成フレームワークである。論理合成の3つの基本的なステップをカプセル化することにより、さまざまな機械学習タスクをサポートする。生成されたOpenLS-D-v1データセットは、確立されたベンチマークから46の組合せ設計で構成されている。
論文参考訳（メタデータ） (2024-11-14T13:18:06Z)
Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-29T04:14:32Z)
rule4ml: An Open-Source Tool for Resource Utilization and Latency Estimation for ML Models on FPGA [0.0]
本稿では、FPGA上での合成と実装に先立って、ニューラルネットワーク(NN)のリソース利用と推論遅延を予測する新しい手法を提案する。 NNを高レベル合成(HLS)コードに変換するツールフローであるHLS4MLを活用している。本手法では, 即時前合成予測に適応した回帰モデルを用いる。
論文参考訳（メタデータ） (2024-08-09T19:35:10Z)
Scaling Retrieval-Based Language Models with a Trillion-Token Datastore [85.4310806466002]
検索ベースLMが使用するデータストアのサイズを増大させることで,言語モデリングや下流タスクを一元的に改善できることがわかった。データストア、モデル、事前学習データサイズで計算最適スケーリング曲線をプロットすることにより、より大きなデータストアを使用することで、同じトレーニング計算予算のモデル性能を大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2024-07-09T08:27:27Z)
ITERTL: An Iterative Framework for Fine-tuning LLMs for RTL Code Generation [9.409062607311528]
大規模言語モデル(LLM)は優れた性能を示しており、研究者はレジスタ転送レベル(RTL)コード生成の自動化に利用することを模索している。 RTL生成のためのファインチューンLSMへの既存のアプローチは、通常、固定データセット上で実行される。 ITERTLと呼ばれる反復的なトレーニングパラダイムを導入し、これらの問題を緩和する。我々のモデルは GPT4 と State-of-the-art (SOTA) のオープンソースモデルより優れており、VerilogEval- Human ベンチマークでは 53.8% のパス@1 レートを達成した。
論文参考訳（メタデータ） (2024-06-28T01:44:57Z)
Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文参考訳（メタデータ） (2023-12-19T12:34:46Z)
Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
Genixerは4つの重要なステップからなる包括的なデータ生成パイプラインである。 LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10のパフォーマンスを向上させる。タスク固有のデータセットで訓練されたMLLMは、複雑な命令チューニングデータを生成する際に、GPT-4Vを超えることができる。
論文参考訳（メタデータ） (2023-12-11T09:44:41Z)
EDALearn: A Comprehensive RTL-to-Signoff EDA Benchmark for Democratized and Reproducible ML for EDA Research [5.093676641214663]
我々はEDALearnを紹介した。EDALearnは、EDAの機械学習タスクに特化した、最初の包括的なオープンソースベンチマークスイートである。このベンチマークスイートは、合成から物理実装までのエンドツーエンドのフローを示し、さまざまなステージにわたるデータ収集を強化する。私たちの貢献はML-EDAドメインのさらなる進歩を促進することを目的としています。
論文参考訳（メタデータ） (2023-12-04T06:51:46Z)
Data-Juicer: A One-Stop Data Processing System for Large Language Models [73.27731037450995]
データレシピは、大規模言語モデル(LLM)をトレーニングするための異なるソースからのデータの混合である。我々はData-Juicerという新しいシステムを構築し、多様なデータレシピを効率的に生成できる。 Data-Juicerから派生したデータレシピは、最先端のLLMで顕著に改善されている。
論文参考訳（メタデータ） (2023-09-05T08:22:07Z)
MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文参考訳（メタデータ） (2023-08-25T01:41:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。