論文の概要: DeepCircuitX: A Comprehensive Repository-Level Dataset for RTL Code Understanding, Generation, and PPA Analysis
- arxiv url: http://arxiv.org/abs/2502.18297v1
- Date: Tue, 25 Feb 2025 15:34:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 17:42:46.127167
- Title: DeepCircuitX: A Comprehensive Repository-Level Dataset for RTL Code Understanding, Generation, and PPA Analysis
- Title(参考訳): DeepCircuitX: RTLコード理解,生成,PPA解析のための総合リポジトリレベルデータセット
- Authors: Zeju Li, Changran Xu, Zhengyuan Shi, Zedong Peng, Yi Liu, Yunhao Zhou, Lingfeng Zhou, Chengyu Ma, Jianyuan Zhong, Xi Wang, Jieru Zhao, Zhufei Chu, Xiaoyan Yang, Qiang Xu,
- Abstract要約: DeepCircuitXは、RTL(Register Transfer Level)コード理解、生成、PPA(Power- Performance-area)分析を促進するために設計された包括的なリポジトリレベルのデータセットである。
ファイルレベルのRTLコードまたは物理レイアウトデータに制限された既存のデータセットとは異なり、DeepCircuitXはリポジトリ、ファイル、モジュール、ブロックレベルのRTLコードにまたがる、総合的でマルチレベルなリソースを提供する。
DeepCircuitXにはChain of Thought(CoT)アノテーションが組み込まれている。
- 参考スコア(独自算出の注目度): 14.341633834445307
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces DeepCircuitX, a comprehensive repository-level dataset designed to advance RTL (Register Transfer Level) code understanding, generation, and power-performance-area (PPA) analysis. Unlike existing datasets that are limited to either file-level RTL code or physical layout data, DeepCircuitX provides a holistic, multilevel resource that spans repository, file, module, and block-level RTL code. This structure enables more nuanced training and evaluation of large language models (LLMs) for RTL-specific tasks. DeepCircuitX is enriched with Chain of Thought (CoT) annotations, offering detailed descriptions of functionality and structure at multiple levels. These annotations enhance its utility for a wide range of tasks, including RTL code understanding, generation, and completion. Additionally, the dataset includes synthesized netlists and PPA metrics, facilitating early-stage design exploration and enabling accurate PPA prediction directly from RTL code. We demonstrate the dataset's effectiveness on various LLMs finetuned with our dataset and confirm the quality with human evaluations. Our results highlight DeepCircuitX as a critical resource for advancing RTL-focused machine learning applications in hardware design automation.Our data is available at https://zeju.gitbook.io/lcm-team.
- Abstract(参考訳): 本稿では,RTL (Register Transfer Level) のコード理解,生成,PPA (Power- Performance-area) 解析を促進するために設計された包括的リポジトリレベルのデータセットであるDeepCircuitXを紹介する。
ファイルレベルのRTLコードまたは物理レイアウトデータに制限された既存のデータセットとは異なり、DeepCircuitXはリポジトリ、ファイル、モジュール、ブロックレベルのRTLコードにまたがる、総合的でマルチレベルなリソースを提供する。
この構造により、RTL固有のタスクのための大規模言語モデル(LLM)のよりニュアンスなトレーニングと評価が可能になる。
DeepCircuitXにはChain of Thought(CoT)アノテーションが組み込まれている。
これらのアノテーションは、RTLコード理解、生成、補完など、幅広いタスクに対して、その有用性を高める。
さらにデータセットには、合成ネットリストとPPAメトリクスが含まれており、アーリーステージの設計探索を容易にし、RTLコードから直接正確なPPA予測を可能にする。
本研究は,データセットを微調整した各種LLM上でのデータセットの有効性を実証し,人間の評価による品質確認を行う。
我々のデータはhttps://zeju.gitbook.io/lcm-team.comで公開されている。
関連論文リスト
- RAVEL: Reasoning Agents for Validating and Evaluating LLM Text Synthesis [78.32151470154422]
テスト担当者が自律的に設計し、典型的な合成操作を実行できるようにするためのエージェントフレームワークであるRAVELを紹介する。
C3EBenchは、プロの人間の文章から1,258個のサンプルを抽出したベンチマークである。
SOTA LLMを演算子としてRAVELを増強することにより、そのようなエージェントテキスト合成はLLMの推論能力に支配されていることがわかった。
論文 参考訳(メタデータ) (2026-02-28T14:47:34Z) - Assessing Large Language Models in Generating RTL Design Specifications [2.4125580419022477]
エンジニアは現在、既存のRTLコードを手動で解釈し、仕様書を書く必要がある。
提案手法がRTL-to-specificationの品質にどのように影響するかを考察し、生成した仕様を忠実に評価するための指標を導入する。
論文 参考訳(メタデータ) (2025-11-17T10:06:24Z) - Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers [103.4410890572479]
スケーラブルな合成データ生成と検証のためのオープンソースのフレームワークであるLoong Projectを紹介します。
LoongBenchは、12のドメインにまたがる8,729の人為的なサンプルを含む、キュレートされたシードデータセットである。
LoongEnvはモジュラー合成データ生成環境であり、新しい質問応答コードのトリプルを生成する複数のプロンプト戦略をサポートする。
論文 参考訳(メタデータ) (2025-09-03T06:42:40Z) - RTL++: Graph-enhanced LLM for RTL Code Generation [0.0]
従来のレジスタ転送レベル (RTL) の設計手法は手作業で、時間がかかり、エラーを起こしやすい。
オープンソースモデルは代替手段を提供するが、品質や正確性に欠けることが多い。
本稿では RTL コード生成のための LLM 支援手法 RTL++ を提案する。
論文 参考訳(メタデータ) (2025-05-11T00:17:26Z) - RTLRepoCoder: Repository-Level RTL Code Completion through the Combination of Fine-Tuning and Retrieval Augmentation [6.428086269916113]
RTLRepoCoderは,レポジトリレベルのVerilogコード補完のために,特定の微調整および検索型拡張生成(RAG)を組み込んだ画期的なソリューションである。
提案手法は,GPT-4 および高度なドメイン固有 LLM の編集類似性および実行一致率を大幅に上回る,公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-04-11T09:04:50Z) - OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs [62.68905180014956]
我々は,500万の多様なサンプルからなる最大オープンアクセス命令チューニングデータセットであるOpenCodeInstructを紹介した。
各サンプルには、プログラミング質問、ソリューション、テストケース、実行フィードバック、LLM生成の品質評価が含まれている。
LLaMAやQwenなど,さまざまなベースモデルを,データセットを使用して複数のスケール(1B+,3B+,7B+)にわたって微調整します。
論文 参考訳(メタデータ) (2025-04-05T02:52:16Z) - Beyond Next Token Probabilities: Learnable, Fast Detection of Hallucinations and Data Contamination on LLM Output Distributions [60.43398881149664]
LLM出力シグナチャの効率的な符号化を訓練した軽量アテンションベースアーキテクチャであるLOS-Netを紹介する。
非常に低い検出レイテンシを維持しながら、さまざまなベンチマークやLLMで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-18T09:04:37Z) - SnipGen: A Mining Repository Framework for Evaluating LLMs for Code [51.07471575337676]
言語モデル(LLM)は、コードリポジトリを含む広範なデータセットに基づいてトレーニングされる。
それらの有効性を評価することは、トレーニングに使用されるデータセットと評価に使用されるデータセットとが重複する可能性があるため、大きな課題となる。
SnipGenは、コード生成のために、様々な下流タスクをまたいだ迅速なエンジニアリングを活用するように設計された包括的なリポジトリマイニングフレームワークである。
論文 参考訳(メタデータ) (2025-02-10T21:28:15Z) - RTL-Repo: A Benchmark for Evaluating LLMs on Large-Scale RTL Design Projects [0.02630859234884723]
大きな言語モデル (LLM) はレジスタ転送レベル (RTL) の設計タスクを支援する可能性を実証している。
実際のRTLプロジェクトの複雑さを正確に反映したベンチマークには、大きなギャップがある。
本稿では,大規模RTL設計プロジェクトにおけるLCM評価のためのベンチマークRTL-Repoを提案する。
論文 参考訳(メタデータ) (2024-05-27T17:36:01Z) - Cross-domain Learning Framework for Tracking Users in RIS-aided Multi-band ISAC Systems with Sparse Labeled Data [55.70071704247794]
統合センシング・通信(ISAC)は6G通信において重要であり、再構成可能なインテリジェントサーフェス(RIS)の急速な発展によって促進される
本稿では,複数の帯域にまたがるマルチモーダルCSIインジケータを協調的に活用し,クロスドメイン方式で追跡機能をモデル化するX2Trackフレームワークを提案する。
X2Trackの下では、トランスフォーマーニューラルネットワークと逆学習技術に基づいて、トラッキングエラーを最小限に抑える効率的なディープラーニングアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-05-10T08:04:27Z) - Enhancing LLM-Based Coding Tools through Native Integration of
IDE-Derived Static Context [41.91246546266515]
我々は,統合開発環境(IDE)がリポジトリレベルのコード補完のために,直接的かつ正確かつリアルタイムなクロスファイル情報を提供できると主張している。
本稿では,IDEネイティブな静的コンテキストをクロスコンテキスト構築に利用し,自己再定義のための診断結果を生成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-06T01:59:41Z) - mPLUG-PaperOwl: Scientific Diagram Analysis with the Multimodal Large
Language Model [73.38800189095173]
本研究はマルチモーダルLLMのマルチモーダルダイアグラム解析機能を強化することに焦点を当てる。
高品質な論文のLatexソースファイルを解析することにより、マルチモーダルなダイアグラム理解データセットM-Paperを慎重に構築する。
M-Paperは、画像やラテックス符号のフォーマットの数字や表を含む、複数の科学的図の合同理解をサポートする最初のデータセットである。
論文 参考訳(メタデータ) (2023-11-30T04:43:26Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Verilog-to-PyG -- A Framework for Graph Learning and Augmentation on RTL
Designs [15.67829950106923]
本稿では,RTL設計をグラフ表現基盤に変換する,革新的なオープンソースフレームワークを提案する。
Verilog-to-PyG(V2PYG)フレームワークは、オープンソースのElectronic Design Automation(EDA)ツールチェーンOpenROADと互換性がある。
本稿では, グラフベースのRTL設計データベースの構築のために, 機能的等価設計拡張を可能にする新しいRTLデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2023-11-09T20:11:40Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - Language Models Enable Simple Systems for Generating Structured Views of Heterogeneous Data Lakes [54.13559879916708]
EVAPORATEは大規模言語モデル(LLM)を利用したプロトタイプシステムである。
コード合成は安価だが、各文書をLSMで直接処理するよりもはるかに正確ではない。
直接抽出よりも優れた品質を実現する拡張コード実装EVAPORATE-CODE+を提案する。
論文 参考訳(メタデータ) (2023-04-19T06:00:26Z) - HLSDataset: Open-Source Dataset for ML-Assisted FPGA Design using High
Level Synthesis [1.7795190822602627]
本稿では,HLSを用いたML支援FPGA設計のためのデータセットであるHLSDatasetを提案する。
データセットはPolybench、Machsuite、CHStone、Rossettaなど、広く使用されているHLS Cベンチマークから生成される。
生成されたVerilogサンプルの総数はFPGAタイプあたり9000近い。
論文 参考訳(メタデータ) (2023-02-17T17:00:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。