論文の概要: Towards the Imagenets of ML4EDA
- arxiv url: http://arxiv.org/abs/2310.10560v1
- Date: Mon, 16 Oct 2023 16:35:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 12:59:42.430662
- Title: Towards the Imagenets of ML4EDA
- Title(参考訳): ML4EDAのイメージネットに向けて
- Authors: Animesh Basak Chowdhury, Shailja Thakur, Hammond Pearce, Ramesh Karri,
Siddharth Garg
- Abstract要約: We describe our experience curating two-scale, high-quality datasets for Verilog code generation and logic synthesis。
最初のVeriGenは、GitHubとVerilogの教科書から収集されたVerilogコードのデータセットである。
2番目のOpenABC-DはMLの論理合成を支援するために設計された大規模ラベル付きデータセットである。
- 参考スコア(独自算出の注目度): 24.696892205786742
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite the growing interest in ML-guided EDA tools from RTL to GDSII, there
are no standard datasets or prototypical learning tasks defined for the EDA
problem domain. Experience from the computer vision community suggests that
such datasets are crucial to spur further progress in ML for EDA. Here we
describe our experience curating two large-scale, high-quality datasets for
Verilog code generation and logic synthesis. The first, VeriGen, is a dataset
of Verilog code collected from GitHub and Verilog textbooks. The second,
OpenABC-D, is a large-scale, labeled dataset designed to aid ML for logic
synthesis tasks. The dataset consists of 870,000 And-Inverter-Graphs (AIGs)
produced from 1500 synthesis runs on a large number of open-source hardware
projects. In this paper we will discuss challenges in curating, maintaining and
growing the size and scale of these datasets. We will also touch upon questions
of dataset quality and security, and the use of novel data augmentation tools
that are tailored for the hardware domain.
- Abstract(参考訳): RTLからGDSIIへのML誘導EDAツールへの関心が高まっているが、EDA問題領域で定義された標準データセットやプロトタイプ学習タスクは存在しない。
コンピュータビジョンコミュニティの経験から、このようなデータセットは eda の ml をさらに発展させるのに不可欠であると示唆されている。
本稿では,verilogコード生成と論理合成のための2つの大規模かつ高品質なデータセットをキュレーションした経験について述べる。
最初のVeriGenは、GitHubとVerilogの教科書から収集されたVerilogコードのデータセットである。
2番目のOpenABC-Dは、MLのロジック合成タスクを支援するために設計された大規模ラベル付きデータセットである。
データセットは870,000のAnd-Inverter-Graphs(AIG)で構成され、1500の合成から生成される。
本稿では,これらのデータセットのサイズと規模を計算,維持,拡大する上での課題について論じる。
また、データセットの品質とセキュリティ、およびハードウェアドメイン用にカスタマイズされた新しいデータ拡張ツールの使用に関する質問にも触れます。
関連論文リスト
- EDALearn: A Comprehensive RTL-to-Signoff EDA Benchmark for Democratized
and Reproducible ML for EDA Research [5.093676641214663]
我々はEDALearnを紹介した。EDALearnは、EDAの機械学習タスクに特化した、最初の包括的なオープンソースベンチマークスイートである。
このベンチマークスイートは、合成から物理実装までのエンドツーエンドのフローを示し、さまざまなステージにわたるデータ収集を強化する。
私たちの貢献はML-EDAドメインのさらなる進歩を促進することを目的としています。
論文 参考訳(メタデータ) (2023-12-04T06:51:46Z) - HLSDataset: Open-Source Dataset for ML-Assisted FPGA Design using High
Level Synthesis [1.7795190822602627]
本稿では,HLSを用いたML支援FPGA設計のためのデータセットであるHLSDatasetを提案する。
データセットはPolybench、Machsuite、CHStone、Rossettaなど、広く使用されているHLS Cベンチマークから生成される。
生成されたVerilogサンプルの総数はFPGAタイプあたり9000近い。
論文 参考訳(メタデータ) (2023-02-17T17:00:12Z) - JEMMA: An Extensible Java Dataset for ML4Code Applications [34.76698017961728]
我々は、機械学習・フォー・ソース・コード(ML4Code)をターゲットにした大規模で多様な高品質なデータセットであるJEMMAを紹介した。
JEMMAの目標は、ソースコードモデルとタスクを試すためのビルディングブロックを提供することで、ML4Codeへの参入障壁を低くすることにあります。
JEMMAには、メタデータ、表現(コードトークン、AST、グラフなど)、いくつかのプロパティといった、かなり多くの事前処理された情報が含まれている。
論文 参考訳(メタデータ) (2022-12-18T17:04:14Z) - Learning from Unlabeled 3D Environments for Vision-and-Language
Navigation [87.03299519917019]
視覚言語ナビゲーション(VLN)では、自然言語の指示に従って現実的な3D環境をナビゲートするために、具体的エージェントが必要である。
我々はHM3Dから900の未ラベルの3Dビルディングから大規模VLNデータセットを自動生成することを提案する。
実験により, HM3D-AutoVLNはVLNモデルの一般化能力を著しく向上させることを示した。
論文 参考訳(メタデータ) (2022-08-24T21:50:20Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - DA$^2$ Dataset: Toward Dexterity-Aware Dual-Arm Grasping [58.48762955493929]
DA$2$は、任意の大物体に対して最適な2次元グリップペアを生成するための、最初の大規模デュアルアームデキスタリティ対応データセットである。
データセットには、6000以上のオブジェクトから生成される約9万組のパラレルジャウグリップが含まれている。
論文 参考訳(メタデータ) (2022-07-31T10:02:27Z) - Fine-Grained Scene Graph Generation with Data Transfer [127.17675443137064]
シーングラフ生成(SGG)は、画像中の三つ子(オブジェクト、述語、オブジェクト)を抽出することを目的としている。
最近の研究は、SGGを着実に進歩させ、高レベルの視覚と言語理解に有用なツールを提供している。
そこで本研究では,プレー・アンド・プラグ方式で適用可能で,約1,807の述語クラスを持つ大規模SGGに拡張可能な,内部・外部データ転送(IETrans)手法を提案する。
論文 参考訳(メタデータ) (2022-03-22T12:26:56Z) - Data-to-Value: An Evaluation-First Methodology for Natural Language
Projects [3.9378507882929554]
Data to Value"(D2V)は、ビッグデータテキスト分析プロジェクトのための新しい方法論である。
ビッグデータテキスト分析プロジェクトチームとトピック間の切断を避けるため、質問の詳細なカタログでガイドされている。
論文 参考訳(メタデータ) (2022-01-19T17:04:52Z) - OpenABC-D: A Large-Scale Dataset For Machine Learning Guided Integrated
Circuit Synthesis [10.338357262730863]
OpenABC-Dは、オープンソースの論理合成ツールを備えたプロトタイプなオープンソース設計によって作成された、大規模でラベル付きデータセットである。
このデータセット上で一般的な学習問題を定義し、既存のソリューションをベンチマークする。
論文 参考訳(メタデータ) (2021-10-21T17:19:19Z) - Open Graph Benchmark: Datasets for Machine Learning on Graphs [86.96887552203479]
スケーラブルで堅牢で再現可能なグラフ機械学習(ML)の研究を容易にするために,Open Graph Benchmark(OGB)を提案する。
OGBデータセットは大規模で、複数の重要なグラフMLタスクを含み、さまざまなドメインをカバーする。
各データセットに対して,有意義なアプリケーション固有のデータ分割と評価指標を用いた統一評価プロトコルを提供する。
論文 参考訳(メタデータ) (2020-05-02T03:09:50Z) - Neural Data Server: A Large-Scale Search Engine for Transfer Learning
Data [78.74367441804183]
我々は,ターゲットドメインに最も有用な転送学習データを見つけるための大規模検索エンジンであるNeural Data Server (NDS)を紹介した。
NDSは、いくつかの人気のある画像データセットをインデックスするデータサーバで構成され、クライアントにデータを推奨することを目的としている。
我々は,NDSが様々な伝達学習シナリオにおいて有効であることを示し,複数のターゲットデータセットに対して最先端の性能を示す。
論文 参考訳(メタデータ) (2020-01-09T01:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。