Fugu-MT 論文翻訳(概要): An Adaptive Open-Source Dataset Generation Framework for Machine Learning Tasks in Logic Synthesis

論文の概要: An Adaptive Open-Source Dataset Generation Framework for Machine Learning Tasks in Logic Synthesis

arxiv url: http://arxiv.org/abs/2411.09422v1
Date: Thu, 14 Nov 2024 13:18:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:47.695565
Title: An Adaptive Open-Source Dataset Generation Framework for Machine Learning Tasks in Logic Synthesis
Title（参考訳）: 論理合成における機械学習タスクのための適応的オープンソースデータセット生成フレームワーク
Authors: Liwei Ni, Rui Wang, Miao Liu, Xingyu Meng, Xiaoze Lin, Junfeng Liu, Guojie Luo, Zhufei Chu, Weikang Qian, Xiaoyan Yang, Biwei Xie, Xingquan Li, Huawei Li,
Abstract要約: このフレームワークは、幅広い機械学習タスクをサポートする。 VerilogフォーマットとGraphmalフォーマットの両方に格納できる中間ファイルに、元の情報を保存する。生成されたOpenLS-Dデータセットは、確立されたベンチマークから46の組合せ設計で構成されている。
参考スコア（独自算出の注目度）: 11.073500440401894
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces an adaptive logic synthesis dataset generation framework designed to enhance machine learning applications within the logic synthesis process. Unlike previous dataset generation flows that were tailored for specific tasks or lacked integrated machine learning capabilities, the proposed framework supports a comprehensive range of machine learning tasks by encapsulating the three fundamental steps of logic synthesis: Boolean representation, logic optimization, and technology mapping. It preserves the original information in the intermediate files that can be stored in both Verilog and Graphmal format. Verilog files enable semi-customizability, allowing researchers to add steps and incrementally refine the generated dataset. The framework also includes an adaptive circuit engine to facilitate the loading of GraphML files for final dataset packaging and sub-dataset extraction. The generated OpenLS-D dataset comprises 46 combinational designs from established benchmarks, totaling over 966,000 Boolean circuits, with each design containing 21,000 circuits generated from 1000 synthesis recipes, including 7000 Boolean networks, 7000 ASIC netlists, and 7000 FPGA netlists. Furthermore, OpenLS-D supports integrating newly desired data features, making it more versatile for new challenges. The utility of OpenLS-D is demonstrated through four distinct downstream tasks: circuit classification, circuit ranking, quality of results (QoR) prediction, and probability prediction. Each task highlights different internal steps of logic synthesis, with the datasets extracted and relabeled from the OpenLS-D dataset using the circuit engine. The experimental results confirm the dataset's diversity and extensive applicability. The source code and datasets are available at https://github.com/Logic-Factory/ACE/blob/master/OpenLS-D/readme.md.
Abstract（参考訳）: 本稿では、論理合成プロセスにおける機械学習アプリケーションを強化するために、適応型論理合成データセット生成フレームワークを提案する。特定のタスク用に調整された、あるいは統合された機械学習機能に欠ける以前のデータセット生成フローとは異なり、提案されたフレームワークは、論理合成の3つの基本的なステップであるブール表現、ロジック最適化、および技術マッピングをカプセル化することにより、包括的な機械学習タスクをサポートする。 VerilogフォーマットとGraphmalフォーマットの両方に格納できる中間ファイルに、元の情報を保存する。 Verilogファイルは半カスタマイズ可能で、研究者はステップを追加し、生成されたデータセットを漸進的に洗練することができる。フレームワークには、最終データセットパッケージングとサブデータセット抽出のためのGraphMLファイルのロードを容易にする適応回路エンジンも含まれている。生成されたOpenLS-Dデータセットは、確立されたベンチマークから46個の組み合わせ設計で構成され、合計966,000個のBoolean回路と、7000個のBooleanネットワーク、7000個のASICネットリスト、7000個のFPGAネットリストを含む1000個の合成レシピから生成される21,000個の回路を含んでいる。さらに、OpenLS-Dは、新たに望まれるデータ機能の統合をサポートし、新しい課題に対してより汎用性がある。 OpenLS-Dの実用性は、回路分類、回路ランク付け、結果の品質(QoR)予測、確率予測の4つの異なる下流タスクを通じて実証される。各タスクは論理合成のさまざまな内部ステップを強調し、回路エンジンを使用してOpenLS-Dデータセットからデータセットを抽出し、レバーベリングする。実験結果はデータセットの多様性と広範な適用性を確認した。ソースコードとデータセットはhttps://github.com/Logic-Factory/ACE/blob/master/OpenLS-D/readme.mdで公開されている。

関連論文リスト

SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond [35.80475408913363]
多様な論理的推論データを大規模に生成するデータ合成フレームワークおよびデータセットであるSynLogicを提案する。 7Bおよび32Bモデルに基づくSynLogicデータセットにおけるRLトレーニングの有効性を検証する。混合トレーニングモデルは、複数のベンチマークでDeepSeek-R1-Zero-Qwen-32Bより優れています。
論文参考訳（メタデータ） (2025-05-26T07:59:36Z)
GL-Fusion: Rethinking the Combination of Graph Neural Network and Large Language model [63.774726052837266]
グラフニューラルネットワーク(GNN)とLarge Language Models(LLM)を深く統合した新しいアーキテクチャを導入する。本稿では,(1)GNNのメッセージパッシング機能を直接LLMのトランスフォーマー層に組み込む構造対応トランスフォーマー,(2)グラフノードとエッジから圧縮されていない全テキストを処理するグラフテキストクロスアテンション,(3)GNN-LLMツインプレクタ,(3)GNN-LLMツインプレクタ,3)GNNのスケーラブルなワンパス予測とともに,LLMの柔軟な自己回帰生成を実現する。
論文参考訳（メタデータ） (2024-12-08T05:49:58Z)
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文参考訳（メタデータ） (2024-11-07T17:47:25Z)
Empirical Insights on Fine-Tuning Large Language Models for Question-Answering [50.12622877002846]
大規模言語モデル(LLM)は、大量のデータセットの事前トレーニングを通じて、広範囲な世界の知識を符号化する。我々は,事前学習したLLMが記憶する知識の量に基づいて,教師付き微調整(SFT)データを分類した。実験の結果,SFTの段階では60個のデータポイントが事前学習中に符号化された知識を活性化することができ,LLMがQAタスクを実行できることがわかった。
論文参考訳（メタデータ） (2024-09-24T07:38:38Z)
rule4ml: An Open-Source Tool for Resource Utilization and Latency Estimation for ML Models on FPGA [0.0]
本稿では、FPGA上での合成と実装に先立って、ニューラルネットワーク(NN)のリソース利用と推論遅延を予測する新しい手法を提案する。 NNを高レベル合成(HLS)コードに変換するツールフローであるHLS4MLを活用している。本手法では, 即時前合成予測に適応した回帰モデルを用いる。
論文参考訳（メタデータ） (2024-08-09T19:35:10Z)
Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文参考訳（メタデータ） (2023-12-19T12:34:46Z)
Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
Genixerは4つの重要なステップからなる包括的なデータ生成パイプラインである。 LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10のパフォーマンスを向上させる。タスク固有のデータセットで訓練されたMLLMは、複雑な命令チューニングデータを生成する際に、GPT-4Vを超えることができる。
論文参考訳（メタデータ） (2023-12-11T09:44:41Z)
FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文参考訳（メタデータ） (2023-09-01T09:40:36Z)
CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。学習方法は,「フリーランチ」仮説の主張を考察する。データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文参考訳（メタデータ） (2023-05-03T17:55:25Z)
HLSDataset: Open-Source Dataset for ML-Assisted FPGA Design using High Level Synthesis [1.7795190822602627]
本稿では,HLSを用いたML支援FPGA設計のためのデータセットであるHLSDatasetを提案する。データセットはPolybench、Machsuite、CHStone、Rossettaなど、広く使用されているHLS Cベンチマークから生成される。生成されたVerilogサンプルの総数はFPGAタイプあたり9000近い。
論文参考訳（メタデータ） (2023-02-17T17:00:12Z)
OpenABC-D: A Large-Scale Dataset For Machine Learning Guided Integrated Circuit Synthesis [10.338357262730863]
OpenABC-Dは、オープンソースの論理合成ツールを備えたプロトタイプなオープンソース設計によって作成された、大規模でラベル付きデータセットである。このデータセット上で一般的な学習問題を定義し、既存のソリューションをベンチマークする。
論文参考訳（メタデータ） (2021-10-21T17:19:19Z)
SYNC: A Copula based Framework for Generating Synthetic Data from Aggregated Sources [8.350531869939351]
ダウンスケーリングと呼ばれる合成データ生成タスクについて検討する。我々はSynC (Synthetic Data Generation via Gaussian Copula) と呼ばれる多段階フレームワークを提案する。私たちはこの仕事に4つの重要な貢献をしています。
論文参考訳（メタデータ） (2020-09-20T16:36:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。