論文の概要: An Adaptive Open-Source Dataset Generation Framework for Machine Learning Tasks in Logic Synthesis
- arxiv url: http://arxiv.org/abs/2411.09422v1
- Date: Thu, 14 Nov 2024 13:18:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:22:17.550186
- Title: An Adaptive Open-Source Dataset Generation Framework for Machine Learning Tasks in Logic Synthesis
- Title(参考訳): 論理合成における機械学習タスクのための適応的オープンソースデータセット生成フレームワーク
- Authors: Liwei Ni, Rui Wang, Miao Liu, Xingyu Meng, Xiaoze Lin, Junfeng Liu, Guojie Luo, Zhufei Chu, Weikang Qian, Xiaoyan Yang, Biwei Xie, Xingquan Li, Huawei Li,
- Abstract要約: このフレームワークは、幅広い機械学習タスクをサポートする。
VerilogフォーマットとGraphmalフォーマットの両方に格納できる中間ファイルに、元の情報を保存する。
生成されたOpenLS-Dデータセットは、確立されたベンチマークから46の組合せ設計で構成されている。
- 参考スコア(独自算出の注目度): 11.073500440401894
- License:
- Abstract: This paper introduces an adaptive logic synthesis dataset generation framework designed to enhance machine learning applications within the logic synthesis process. Unlike previous dataset generation flows that were tailored for specific tasks or lacked integrated machine learning capabilities, the proposed framework supports a comprehensive range of machine learning tasks by encapsulating the three fundamental steps of logic synthesis: Boolean representation, logic optimization, and technology mapping. It preserves the original information in the intermediate files that can be stored in both Verilog and Graphmal format. Verilog files enable semi-customizability, allowing researchers to add steps and incrementally refine the generated dataset. The framework also includes an adaptive circuit engine to facilitate the loading of GraphML files for final dataset packaging and sub-dataset extraction. The generated OpenLS-D dataset comprises 46 combinational designs from established benchmarks, totaling over 966,000 Boolean circuits, with each design containing 21,000 circuits generated from 1000 synthesis recipes, including 7000 Boolean networks, 7000 ASIC netlists, and 7000 FPGA netlists. Furthermore, OpenLS-D supports integrating newly desired data features, making it more versatile for new challenges. The utility of OpenLS-D is demonstrated through four distinct downstream tasks: circuit classification, circuit ranking, quality of results (QoR) prediction, and probability prediction. Each task highlights different internal steps of logic synthesis, with the datasets extracted and relabeled from the OpenLS-D dataset using the circuit engine. The experimental results confirm the dataset's diversity and extensive applicability. The source code and datasets are available at https://github.com/Logic-Factory/ACE/blob/master/OpenLS-D/readme.md.
- Abstract(参考訳): 本稿では、論理合成プロセスにおける機械学習アプリケーションを強化するために、適応型論理合成データセット生成フレームワークを提案する。
特定のタスク用に調整された、あるいは統合された機械学習機能に欠ける以前のデータセット生成フローとは異なり、提案されたフレームワークは、論理合成の3つの基本的なステップであるブール表現、ロジック最適化、および技術マッピングをカプセル化することにより、包括的な機械学習タスクをサポートする。
VerilogフォーマットとGraphmalフォーマットの両方に格納できる中間ファイルに、元の情報を保存する。
Verilogファイルは半カスタマイズ可能で、研究者はステップを追加し、生成されたデータセットを漸進的に洗練することができる。
フレームワークには、最終データセットパッケージングとサブデータセット抽出のためのGraphMLファイルのロードを容易にする適応回路エンジンも含まれている。
生成されたOpenLS-Dデータセットは、確立されたベンチマークから46個の組み合わせ設計で構成され、合計966,000個のBoolean回路と、7000個のBooleanネットワーク、7000個のASICネットリスト、7000個のFPGAネットリストを含む1000個の合成レシピから生成される21,000個の回路を含んでいる。
さらに、OpenLS-Dは、新たに望まれるデータ機能の統合をサポートし、新しい課題に対してより汎用性がある。
OpenLS-Dの実用性は、回路分類、回路ランク付け、結果の品質(QoR)予測、確率予測の4つの異なる下流タスクを通じて実証される。
各タスクは論理合成のさまざまな内部ステップを強調し、回路エンジンを使用してOpenLS-Dデータセットからデータセットを抽出し、レバーベリングする。
実験結果はデータセットの多様性と広範な適用性を確認した。
ソースコードとデータセットはhttps://github.com/Logic-Factory/ACE/blob/master/OpenLS-D/readme.mdで公開されている。
関連論文リスト
- DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation [55.2480439325792]
トピック分類,感情分析,トーン検出,ユーモアの6つのデータセットの合成について検討した。
その結果,SynthesizRRは語彙や意味の多様性,人文との類似性,蒸留性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-16T12:22:41Z) - Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
Genixerは4つの重要なステップからなる包括的なデータ生成パイプラインである。
LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10のパフォーマンスを向上させる。
タスク固有のデータセットで訓練されたMLLMは、複雑な命令チューニングデータを生成する際に、GPT-4Vを超えることができる。
論文 参考訳(メタデータ) (2023-12-11T09:44:41Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Large Language Models for Automated Data Science: Introducing CAAFE for
Context-Aware Automated Feature Engineering [52.09178018466104]
データセットのセマンティックな特徴を生成するために、コンテキスト認識自動特徴工学(CAAFE)を導入する。
方法論的には単純だが、CAAFEは14のデータセットのうち11のパフォーマンスを改善している。
我々は,AutoMLシステムの範囲をセマンティックなAutoMLに拡張できるコンテキスト認識ソリューションの重要性を強調した。
論文 参考訳(メタデータ) (2023-05-05T09:58:40Z) - A Deep Learning Framework for Verilog Autocompletion Towards Design and
Verification Automation [0.33598755777055367]
本稿では,Verilog自動補完モデルの学習のための新しいディープラーニングフレームワークを提案する。
このフレームワークは、一般的なプログラミング言語のデータに基づいて事前訓練されたモデルを統合し、ターゲットの下流タスクに類似するようにキュレートされたデータセット上でそれらを微調整する。
実験により、提案されたフレームワークは、スクラッチからトレーニングされたモデルと比較して、それぞれ9.5%、6.7%、および6.9%、BLEU、ROUGE-L、chrFのスコアが向上することが示された。
論文 参考訳(メタデータ) (2023-04-26T21:56:03Z) - Creating Synthetic Datasets for Collaborative Filtering Recommender
Systems using Generative Adversarial Networks [1.290382979353427]
機械学習における研究と教育には、必要なトレーニング、検証、テストタスクを処理するために、多様な、代表的でオープンなデータセットが必要です。
この研究の多様性を養うためには、既存のデータセットを合成データセットで補強する必要がある。
本稿では,協調フィルタリングデータセットを生成するGAN(Generative Adversarial Network)に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T14:23:27Z) - HLSDataset: Open-Source Dataset for ML-Assisted FPGA Design using High
Level Synthesis [1.7795190822602627]
本稿では,HLSを用いたML支援FPGA設計のためのデータセットであるHLSDatasetを提案する。
データセットはPolybench、Machsuite、CHStone、Rossettaなど、広く使用されているHLS Cベンチマークから生成される。
生成されたVerilogサンプルの総数はFPGAタイプあたり9000近い。
論文 参考訳(メタデータ) (2023-02-17T17:00:12Z) - OpenABC-D: A Large-Scale Dataset For Machine Learning Guided Integrated
Circuit Synthesis [10.338357262730863]
OpenABC-Dは、オープンソースの論理合成ツールを備えたプロトタイプなオープンソース設計によって作成された、大規模でラベル付きデータセットである。
このデータセット上で一般的な学習問題を定義し、既存のソリューションをベンチマークする。
論文 参考訳(メタデータ) (2021-10-21T17:19:19Z) - SYNC: A Copula based Framework for Generating Synthetic Data from
Aggregated Sources [8.350531869939351]
ダウンスケーリングと呼ばれる合成データ生成タスクについて検討する。
我々はSynC (Synthetic Data Generation via Gaussian Copula) と呼ばれる多段階フレームワークを提案する。
私たちはこの仕事に4つの重要な貢献をしています。
論文 参考訳(メタデータ) (2020-09-20T16:36:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。