論文の概要: OpenLS-DGF: An Adaptive Open-Source Dataset Generation Framework for Machine Learning Tasks in Logic Synthesis
- arxiv url: http://arxiv.org/abs/2411.09422v2
- Date: Sat, 16 Nov 2024 07:48:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 10:50:29.765961
- Title: OpenLS-DGF: An Adaptive Open-Source Dataset Generation Framework for Machine Learning Tasks in Logic Synthesis
- Title(参考訳): OpenLS-DGF:論理合成における機械学習タスクのための適応的オープンソースデータセット生成フレームワーク
- Authors: Liwei Ni, Rui Wang, Miao Liu, Xingyu Meng, Xiaoze Lin, Junfeng Liu, Guojie Luo, Zhufei Chu, Weikang Qian, Xiaoyan Yang, Biwei Xie, Xingquan Li, Huawei Li,
- Abstract要約: OpenLS-DGFは適応論理合成データセット生成フレームワークである。
論理合成の3つの基本的なステップをカプセル化することにより、さまざまな機械学習タスクをサポートする。
生成されたOpenLS-D-v1データセットは、確立されたベンチマークから46の組合せ設計で構成されている。
- 参考スコア(独自算出の注目度): 11.073500440401894
- License:
- Abstract: This paper introduces OpenLS-DGF, an adaptive logic synthesis dataset generation framework, to enhance machine learning~(ML) applications within the logic synthesis process. Previous dataset generation flows were tailored for specific tasks or lacked integrated machine learning capabilities. While OpenLS-DGF supports various machine learning tasks by encapsulating the three fundamental steps of logic synthesis: Boolean representation, logic optimization, and technology mapping. It preserves the original information in both Verilog and machine-learning-friendly GraphML formats. The verilog files offer semi-customizable capabilities, enabling researchers to insert additional steps and incrementally refine the generated dataset. Furthermore, OpenLS-DGF includes an adaptive circuit engine that facilitates the final dataset management and downstream tasks. The generated OpenLS-D-v1 dataset comprises 46 combinational designs from established benchmarks, totaling over 966,000 Boolean circuits. OpenLS-D-v1 supports integrating new data features, making it more versatile for new challenges. This paper demonstrates the versatility of OpenLS-D-v1 through four distinct downstream tasks: circuit classification, circuit ranking, quality of results (QoR) prediction, and probability prediction. Each task is chosen to represent essential steps of logic synthesis, and the experimental results show the generated dataset from OpenLS-DGF achieves prominent diversity and applicability. The source code and datasets are available at https://github.com/Logic-Factory/ACE/blob/master/OpenLS-DGF/readme.md.
- Abstract(参考訳): 本稿では,適応型論理合成データセット生成フレームワークであるOpenLS-DGFを紹介し,論理合成プロセスにおける機械学習~(ML)アプリケーションを強化する。
以前のデータセット生成フローは、特定のタスク用に調整されたり、統合された機械学習機能が欠如していた。
OpenLS-DGFは論理合成の3つの基本的なステップをカプセル化することによって、さまざまな機械学習タスクをサポートする。
Verilogと機械学習フレンドリーなGraphMLフォーマットの両方で、元の情報を保存している。
Verilogファイルは半カスタマイズ可能な機能を提供し、研究者は追加ステップを挿入し、生成されたデータセットを漸進的に洗練することができる。
さらに、OpenLS-DGFには、最終的なデータセット管理と下流タスクを容易にする適応回路エンジンが含まれている。
生成されたOpenLS-D-v1データセットは、確立されたベンチマークから46の組合せ設計で構成され、合計966,000のブール回路で構成されている。
OpenLS-D-v1は、新しいデータ機能の統合をサポートし、新しい課題に対してより汎用性がある。
本稿では、回路分類、回路ランク付け、品質予測(QoR)、確率予測の4つの異なる下流タスクを通して、OpenLS-D-v1の汎用性を示す。
各タスクは論理合成の重要なステップを表すために選択され、実験結果はOpenLS-DGFから生成されたデータセットが顕著な多様性と適用性を達成することを示している。
ソースコードとデータセットはhttps://github.com/Logic-Factory/ACE/blob/master/OpenLS-DGF/readme.mdで公開されている。
関連論文リスト
- DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation [55.2480439325792]
トピック分類,感情分析,トーン検出,ユーモアの6つのデータセットの合成について検討した。
その結果,SynthesizRRは語彙や意味の多様性,人文との類似性,蒸留性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-16T12:22:41Z) - Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
Genixerは4つの重要なステップからなる包括的なデータ生成パイプラインである。
LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10のパフォーマンスを向上させる。
タスク固有のデータセットで訓練されたMLLMは、複雑な命令チューニングデータを生成する際に、GPT-4Vを超えることができる。
論文 参考訳(メタデータ) (2023-12-11T09:44:41Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Large Language Models for Automated Data Science: Introducing CAAFE for
Context-Aware Automated Feature Engineering [52.09178018466104]
データセットのセマンティックな特徴を生成するために、コンテキスト認識自動特徴工学(CAAFE)を導入する。
方法論的には単純だが、CAAFEは14のデータセットのうち11のパフォーマンスを改善している。
我々は,AutoMLシステムの範囲をセマンティックなAutoMLに拡張できるコンテキスト認識ソリューションの重要性を強調した。
論文 参考訳(メタデータ) (2023-05-05T09:58:40Z) - A Deep Learning Framework for Verilog Autocompletion Towards Design and
Verification Automation [0.33598755777055367]
本稿では,Verilog自動補完モデルの学習のための新しいディープラーニングフレームワークを提案する。
このフレームワークは、一般的なプログラミング言語のデータに基づいて事前訓練されたモデルを統合し、ターゲットの下流タスクに類似するようにキュレートされたデータセット上でそれらを微調整する。
実験により、提案されたフレームワークは、スクラッチからトレーニングされたモデルと比較して、それぞれ9.5%、6.7%、および6.9%、BLEU、ROUGE-L、chrFのスコアが向上することが示された。
論文 参考訳(メタデータ) (2023-04-26T21:56:03Z) - Creating Synthetic Datasets for Collaborative Filtering Recommender
Systems using Generative Adversarial Networks [1.290382979353427]
機械学習における研究と教育には、必要なトレーニング、検証、テストタスクを処理するために、多様な、代表的でオープンなデータセットが必要です。
この研究の多様性を養うためには、既存のデータセットを合成データセットで補強する必要がある。
本稿では,協調フィルタリングデータセットを生成するGAN(Generative Adversarial Network)に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T14:23:27Z) - HLSDataset: Open-Source Dataset for ML-Assisted FPGA Design using High
Level Synthesis [1.7795190822602627]
本稿では,HLSを用いたML支援FPGA設計のためのデータセットであるHLSDatasetを提案する。
データセットはPolybench、Machsuite、CHStone、Rossettaなど、広く使用されているHLS Cベンチマークから生成される。
生成されたVerilogサンプルの総数はFPGAタイプあたり9000近い。
論文 参考訳(メタデータ) (2023-02-17T17:00:12Z) - OpenABC-D: A Large-Scale Dataset For Machine Learning Guided Integrated
Circuit Synthesis [10.338357262730863]
OpenABC-Dは、オープンソースの論理合成ツールを備えたプロトタイプなオープンソース設計によって作成された、大規模でラベル付きデータセットである。
このデータセット上で一般的な学習問題を定義し、既存のソリューションをベンチマークする。
論文 参考訳(メタデータ) (2021-10-21T17:19:19Z) - SYNC: A Copula based Framework for Generating Synthetic Data from
Aggregated Sources [8.350531869939351]
ダウンスケーリングと呼ばれる合成データ生成タスクについて検討する。
我々はSynC (Synthetic Data Generation via Gaussian Copula) と呼ばれる多段階フレームワークを提案する。
私たちはこの仕事に4つの重要な貢献をしています。
論文 参考訳(メタデータ) (2020-09-20T16:36:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。