論文の概要: DeepCircuitX: A Comprehensive Repository-Level Dataset for RTL Code Understanding, Generation, and PPA Analysis
- arxiv url: http://arxiv.org/abs/2502.18297v1
- Date: Tue, 25 Feb 2025 15:34:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:20:54.244566
- Title: DeepCircuitX: A Comprehensive Repository-Level Dataset for RTL Code Understanding, Generation, and PPA Analysis
- Title(参考訳): DeepCircuitX: RTLコード理解,生成,PPA解析のための総合リポジトリレベルデータセット
- Authors: Zeju Li, Changran Xu, Zhengyuan Shi, Zedong Peng, Yi Liu, Yunhao Zhou, Lingfeng Zhou, Chengyu Ma, Jianyuan Zhong, Xi Wang, Jieru Zhao, Zhufei Chu, Xiaoyan Yang, Qiang Xu,
- Abstract要約: DeepCircuitXは、RTL(Register Transfer Level)コード理解、生成、PPA(Power- Performance-area)分析を促進するために設計された包括的なリポジトリレベルのデータセットである。
ファイルレベルのRTLコードまたは物理レイアウトデータに制限された既存のデータセットとは異なり、DeepCircuitXはリポジトリ、ファイル、モジュール、ブロックレベルのRTLコードにまたがる、総合的でマルチレベルなリソースを提供する。
DeepCircuitXにはChain of Thought(CoT)アノテーションが組み込まれている。
- 参考スコア(独自算出の注目度): 14.341633834445307
- License:
- Abstract: This paper introduces DeepCircuitX, a comprehensive repository-level dataset designed to advance RTL (Register Transfer Level) code understanding, generation, and power-performance-area (PPA) analysis. Unlike existing datasets that are limited to either file-level RTL code or physical layout data, DeepCircuitX provides a holistic, multilevel resource that spans repository, file, module, and block-level RTL code. This structure enables more nuanced training and evaluation of large language models (LLMs) for RTL-specific tasks. DeepCircuitX is enriched with Chain of Thought (CoT) annotations, offering detailed descriptions of functionality and structure at multiple levels. These annotations enhance its utility for a wide range of tasks, including RTL code understanding, generation, and completion. Additionally, the dataset includes synthesized netlists and PPA metrics, facilitating early-stage design exploration and enabling accurate PPA prediction directly from RTL code. We demonstrate the dataset's effectiveness on various LLMs finetuned with our dataset and confirm the quality with human evaluations. Our results highlight DeepCircuitX as a critical resource for advancing RTL-focused machine learning applications in hardware design automation.Our data is available at https://zeju.gitbook.io/lcm-team.
- Abstract(参考訳): 本稿では,RTL (Register Transfer Level) のコード理解,生成,PPA (Power- Performance-area) 解析を促進するために設計された包括的リポジトリレベルのデータセットであるDeepCircuitXを紹介する。
ファイルレベルのRTLコードまたは物理レイアウトデータに制限された既存のデータセットとは異なり、DeepCircuitXはリポジトリ、ファイル、モジュール、ブロックレベルのRTLコードにまたがる、総合的でマルチレベルなリソースを提供する。
この構造により、RTL固有のタスクのための大規模言語モデル(LLM)のよりニュアンスなトレーニングと評価が可能になる。
DeepCircuitXにはChain of Thought(CoT)アノテーションが組み込まれている。
これらのアノテーションは、RTLコード理解、生成、補完など、幅広いタスクに対して、その有用性を高める。
さらにデータセットには、合成ネットリストとPPAメトリクスが含まれており、アーリーステージの設計探索を容易にし、RTLコードから直接正確なPPA予測を可能にする。
本研究は,データセットを微調整した各種LLM上でのデータセットの有効性を実証し,人間の評価による品質確認を行う。
我々のデータはhttps://zeju.gitbook.io/lcm-team.comで公開されている。
関連論文リスト
- SnipGen: A Mining Repository Framework for Evaluating LLMs for Code [51.07471575337676]
言語モデル(LLM)は、コードリポジトリを含む広範なデータセットに基づいてトレーニングされる。
それらの有効性を評価することは、トレーニングに使用されるデータセットと評価に使用されるデータセットとが重複する可能性があるため、大きな課題となる。
SnipGenは、コード生成のために、様々な下流タスクをまたいだ迅速なエンジニアリングを活用するように設計された包括的なリポジトリマイニングフレームワークである。
論文 参考訳(メタデータ) (2025-02-10T21:28:15Z) - RTLSquad: Multi-Agent Based Interpretable RTL Design [3.1734541757969463]
LLM(Large Language Models)は、RTLコードの自動生成と最適化のための新しいアプローチを提供する。
そこで我々は,RTLSquadを提案する。RTLSquadは,RTLコード生成を解釈可能な新しいLLMベースマルチエージェントシステムである。
論文 参考訳(メタデータ) (2025-01-06T02:57:54Z) - RedStone: Curating General, Code, Math, and QA Data for Large Language Models [134.49774529790693]
本研究では,大規模言語モデルを事前学習するための包括的かつ柔軟なリソースとして,Common Crawlの未完成の可能性を探る。
私たちは、Common Crawlからデータを抽出し、処理するために設計された、革新的でスケーラブルなパイプラインであるRedStoneを紹介します。
論文 参考訳(メタデータ) (2024-12-04T15:27:39Z) - RTL-Repo: A Benchmark for Evaluating LLMs on Large-Scale RTL Design Projects [0.02630859234884723]
大きな言語モデル (LLM) はレジスタ転送レベル (RTL) の設計タスクを支援する可能性を実証している。
実際のRTLプロジェクトの複雑さを正確に反映したベンチマークには、大きなギャップがある。
本稿では,大規模RTL設計プロジェクトにおけるLCM評価のためのベンチマークRTL-Repoを提案する。
論文 参考訳(メタデータ) (2024-05-27T17:36:01Z) - RLHF Workflow: From Reward Modeling to Online RLHF [79.83927049253924]
本稿では,RLHF(Online Iterative Reinforcement Learning from Human Feedback)のワークフローについて報告する。
RLHFは、最近の大規模言語モデル(LLM)文学において、オフライン言語よりもはるかに優れていると広く報告されている。
教師付き微調整(SFT)と反復RLHFは,完全なオープンソースデータセットを用いて最先端の性能を得ることができることを示す。
論文 参考訳(メタデータ) (2024-05-13T15:50:39Z) - Cross-domain Learning Framework for Tracking Users in RIS-aided Multi-band ISAC Systems with Sparse Labeled Data [55.70071704247794]
統合センシング・通信(ISAC)は6G通信において重要であり、再構成可能なインテリジェントサーフェス(RIS)の急速な発展によって促進される
本稿では,複数の帯域にまたがるマルチモーダルCSIインジケータを協調的に活用し,クロスドメイン方式で追跡機能をモデル化するX2Trackフレームワークを提案する。
X2Trackの下では、トランスフォーマーニューラルネットワークと逆学習技術に基づいて、トラッキングエラーを最小限に抑える効率的なディープラーニングアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-05-10T08:04:27Z) - Enhancing LLM-Based Coding Tools through Native Integration of
IDE-Derived Static Context [41.91246546266515]
我々は,統合開発環境(IDE)がリポジトリレベルのコード補完のために,直接的かつ正確かつリアルタイムなクロスファイル情報を提供できると主張している。
本稿では,IDEネイティブな静的コンテキストをクロスコンテキスト構築に利用し,自己再定義のための診断結果を生成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-06T01:59:41Z) - mPLUG-PaperOwl: Scientific Diagram Analysis with the Multimodal Large
Language Model [73.38800189095173]
本研究はマルチモーダルLLMのマルチモーダルダイアグラム解析機能を強化することに焦点を当てる。
高品質な論文のLatexソースファイルを解析することにより、マルチモーダルなダイアグラム理解データセットM-Paperを慎重に構築する。
M-Paperは、画像やラテックス符号のフォーマットの数字や表を含む、複数の科学的図の合同理解をサポートする最初のデータセットである。
論文 参考訳(メタデータ) (2023-11-30T04:43:26Z) - Verilog-to-PyG -- A Framework for Graph Learning and Augmentation on RTL
Designs [15.67829950106923]
本稿では,RTL設計をグラフ表現基盤に変換する,革新的なオープンソースフレームワークを提案する。
Verilog-to-PyG(V2PYG)フレームワークは、オープンソースのElectronic Design Automation(EDA)ツールチェーンOpenROADと互換性がある。
本稿では, グラフベースのRTL設計データベースの構築のために, 機能的等価設計拡張を可能にする新しいRTLデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2023-11-09T20:11:40Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - HLSDataset: Open-Source Dataset for ML-Assisted FPGA Design using High
Level Synthesis [1.7795190822602627]
本稿では,HLSを用いたML支援FPGA設計のためのデータセットであるHLSDatasetを提案する。
データセットはPolybench、Machsuite、CHStone、Rossettaなど、広く使用されているHLS Cベンチマークから生成される。
生成されたVerilogサンプルの総数はFPGAタイプあたり9000近い。
論文 参考訳(メタデータ) (2023-02-17T17:00:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。