論文の概要: DeepCircuitX: A Comprehensive Repository-Level Dataset for RTL Code Understanding, Generation, and PPA Analysis
- arxiv url: http://arxiv.org/abs/2502.18297v1
- Date: Tue, 25 Feb 2025 15:34:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 17:42:46.127167
- Title: DeepCircuitX: A Comprehensive Repository-Level Dataset for RTL Code Understanding, Generation, and PPA Analysis
- Title(参考訳): DeepCircuitX: RTLコード理解,生成,PPA解析のための総合リポジトリレベルデータセット
- Authors: Zeju Li, Changran Xu, Zhengyuan Shi, Zedong Peng, Yi Liu, Yunhao Zhou, Lingfeng Zhou, Chengyu Ma, Jianyuan Zhong, Xi Wang, Jieru Zhao, Zhufei Chu, Xiaoyan Yang, Qiang Xu,
- Abstract要約: DeepCircuitXは、RTL(Register Transfer Level)コード理解、生成、PPA(Power- Performance-area)分析を促進するために設計された包括的なリポジトリレベルのデータセットである。
ファイルレベルのRTLコードまたは物理レイアウトデータに制限された既存のデータセットとは異なり、DeepCircuitXはリポジトリ、ファイル、モジュール、ブロックレベルのRTLコードにまたがる、総合的でマルチレベルなリソースを提供する。
DeepCircuitXにはChain of Thought(CoT)アノテーションが組み込まれている。
- 参考スコア(独自算出の注目度): 14.341633834445307
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces DeepCircuitX, a comprehensive repository-level dataset designed to advance RTL (Register Transfer Level) code understanding, generation, and power-performance-area (PPA) analysis. Unlike existing datasets that are limited to either file-level RTL code or physical layout data, DeepCircuitX provides a holistic, multilevel resource that spans repository, file, module, and block-level RTL code. This structure enables more nuanced training and evaluation of large language models (LLMs) for RTL-specific tasks. DeepCircuitX is enriched with Chain of Thought (CoT) annotations, offering detailed descriptions of functionality and structure at multiple levels. These annotations enhance its utility for a wide range of tasks, including RTL code understanding, generation, and completion. Additionally, the dataset includes synthesized netlists and PPA metrics, facilitating early-stage design exploration and enabling accurate PPA prediction directly from RTL code. We demonstrate the dataset's effectiveness on various LLMs finetuned with our dataset and confirm the quality with human evaluations. Our results highlight DeepCircuitX as a critical resource for advancing RTL-focused machine learning applications in hardware design automation.Our data is available at https://zeju.gitbook.io/lcm-team.
- Abstract(参考訳): 本稿では,RTL (Register Transfer Level) のコード理解,生成,PPA (Power- Performance-area) 解析を促進するために設計された包括的リポジトリレベルのデータセットであるDeepCircuitXを紹介する。
ファイルレベルのRTLコードまたは物理レイアウトデータに制限された既存のデータセットとは異なり、DeepCircuitXはリポジトリ、ファイル、モジュール、ブロックレベルのRTLコードにまたがる、総合的でマルチレベルなリソースを提供する。
この構造により、RTL固有のタスクのための大規模言語モデル(LLM)のよりニュアンスなトレーニングと評価が可能になる。
DeepCircuitXにはChain of Thought(CoT)アノテーションが組み込まれている。
これらのアノテーションは、RTLコード理解、生成、補完など、幅広いタスクに対して、その有用性を高める。
さらにデータセットには、合成ネットリストとPPAメトリクスが含まれており、アーリーステージの設計探索を容易にし、RTLコードから直接正確なPPA予測を可能にする。
本研究は,データセットを微調整した各種LLM上でのデータセットの有効性を実証し,人間の評価による品質確認を行う。
我々のデータはhttps://zeju.gitbook.io/lcm-team.comで公開されている。
関連論文リスト
- RTLRepoCoder: Repository-Level RTL Code Completion through the Combination of Fine-Tuning and Retrieval Augmentation [6.428086269916113]
RTLRepoCoderは,レポジトリレベルのVerilogコード補完のために,特定の微調整および検索型拡張生成(RAG)を組み込んだ画期的なソリューションである。
提案手法は,GPT-4 および高度なドメイン固有 LLM の編集類似性および実行一致率を大幅に上回る,公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-04-11T09:04:50Z) - OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs [62.68905180014956]
我々は,500万の多様なサンプルからなる最大オープンアクセス命令チューニングデータセットであるOpenCodeInstructを紹介した。
各サンプルには、プログラミング質問、ソリューション、テストケース、実行フィードバック、LLM生成の品質評価が含まれている。
LLaMAやQwenなど,さまざまなベースモデルを,データセットを使用して複数のスケール(1B+,3B+,7B+)にわたって微調整します。
論文 参考訳(メタデータ) (2025-04-05T02:52:16Z) - SnipGen: A Mining Repository Framework for Evaluating LLMs for Code [51.07471575337676]
言語モデル(LLM)は、コードリポジトリを含む広範なデータセットに基づいてトレーニングされる。
それらの有効性を評価することは、トレーニングに使用されるデータセットと評価に使用されるデータセットとが重複する可能性があるため、大きな課題となる。
SnipGenは、コード生成のために、様々な下流タスクをまたいだ迅速なエンジニアリングを活用するように設計された包括的なリポジトリマイニングフレームワークである。
論文 参考訳(メタデータ) (2025-02-10T21:28:15Z) - RTL-Repo: A Benchmark for Evaluating LLMs on Large-Scale RTL Design Projects [0.02630859234884723]
大きな言語モデル (LLM) はレジスタ転送レベル (RTL) の設計タスクを支援する可能性を実証している。
実際のRTLプロジェクトの複雑さを正確に反映したベンチマークには、大きなギャップがある。
本稿では,大規模RTL設計プロジェクトにおけるLCM評価のためのベンチマークRTL-Repoを提案する。
論文 参考訳(メタデータ) (2024-05-27T17:36:01Z) - Cross-domain Learning Framework for Tracking Users in RIS-aided Multi-band ISAC Systems with Sparse Labeled Data [55.70071704247794]
統合センシング・通信(ISAC)は6G通信において重要であり、再構成可能なインテリジェントサーフェス(RIS)の急速な発展によって促進される
本稿では,複数の帯域にまたがるマルチモーダルCSIインジケータを協調的に活用し,クロスドメイン方式で追跡機能をモデル化するX2Trackフレームワークを提案する。
X2Trackの下では、トランスフォーマーニューラルネットワークと逆学習技術に基づいて、トラッキングエラーを最小限に抑える効率的なディープラーニングアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-05-10T08:04:27Z) - Enhancing LLM-Based Coding Tools through Native Integration of
IDE-Derived Static Context [41.91246546266515]
我々は,統合開発環境(IDE)がリポジトリレベルのコード補完のために,直接的かつ正確かつリアルタイムなクロスファイル情報を提供できると主張している。
本稿では,IDEネイティブな静的コンテキストをクロスコンテキスト構築に利用し,自己再定義のための診断結果を生成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-06T01:59:41Z) - mPLUG-PaperOwl: Scientific Diagram Analysis with the Multimodal Large
Language Model [73.38800189095173]
本研究はマルチモーダルLLMのマルチモーダルダイアグラム解析機能を強化することに焦点を当てる。
高品質な論文のLatexソースファイルを解析することにより、マルチモーダルなダイアグラム理解データセットM-Paperを慎重に構築する。
M-Paperは、画像やラテックス符号のフォーマットの数字や表を含む、複数の科学的図の合同理解をサポートする最初のデータセットである。
論文 参考訳(メタデータ) (2023-11-30T04:43:26Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Verilog-to-PyG -- A Framework for Graph Learning and Augmentation on RTL
Designs [15.67829950106923]
本稿では,RTL設計をグラフ表現基盤に変換する,革新的なオープンソースフレームワークを提案する。
Verilog-to-PyG(V2PYG)フレームワークは、オープンソースのElectronic Design Automation(EDA)ツールチェーンOpenROADと互換性がある。
本稿では, グラフベースのRTL設計データベースの構築のために, 機能的等価設計拡張を可能にする新しいRTLデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2023-11-09T20:11:40Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - Language Models Enable Simple Systems for Generating Structured Views of Heterogeneous Data Lakes [54.13559879916708]
EVAPORATEは大規模言語モデル(LLM)を利用したプロトタイプシステムである。
コード合成は安価だが、各文書をLSMで直接処理するよりもはるかに正確ではない。
直接抽出よりも優れた品質を実現する拡張コード実装EVAPORATE-CODE+を提案する。
論文 参考訳(メタデータ) (2023-04-19T06:00:26Z) - HLSDataset: Open-Source Dataset for ML-Assisted FPGA Design using High
Level Synthesis [1.7795190822602627]
本稿では,HLSを用いたML支援FPGA設計のためのデータセットであるHLSDatasetを提案する。
データセットはPolybench、Machsuite、CHStone、Rossettaなど、広く使用されているHLS Cベンチマークから生成される。
生成されたVerilogサンプルの総数はFPGAタイプあたり9000近い。
論文 参考訳(メタデータ) (2023-02-17T17:00:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。