論文の概要: hdl2v: A Code Translation Dataset for Enhanced LLM Verilog Generation
- arxiv url: http://arxiv.org/abs/2506.04544v1
- Date: Thu, 05 Jun 2025 01:29:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.481185
- Title: hdl2v: A Code Translation Dataset for Enhanced LLM Verilog Generation
- Title(参考訳): hdl2v: LLM Verilog生成の強化のためのコード翻訳データセット
- Authors: Charles Hong, Brendan Roberts, Huijae An, Alex Um, Advay Ratan, Yakun Sophia Shao,
- Abstract要約: 私たちは出席します。
HDL-to-Verilog – 人間が記述したVerilogデータの量を増やすデータセット。
私たちはその価値を示します。
HDL-to-Verilogは32億重みモデルのパフォーマンスを最大23%向上させる。
- 参考スコア(独自算出の注目度): 0.9149489479543916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are playing an increasingly large role in domains such as code generation, including hardware code generation, where Verilog is the key language. However, the amount of publicly available Verilog code pales in comparison to the amount of code available for software languages like Python. In this work, we present hdl2v ("HDL-to-Verilog"), a dataset which seeks to increase the amount of available human-written Verilog data by translating or compiling three other hardware description languages - VHDL, Chisel, and PyMTL3 - to Verilog. Furthermore, we demonstrate the value of hdl2v in enhancing LLM Verilog generation by improving performance of a 32 billion-parameter open-weight model by up to 23% (pass@10) in VerilogEvalV2, without utilizing any data augmentation or knowledge distillation from larger models. We also show hdl2v's ability to boost the performance of a data augmentation-based fine-tuning approach by 63%. Finally, we characterize and analyze our dataset to better understand which characteristics of HDL-to-Verilog datasets can be expanded upon in future work for even better performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は、Verilogが主要な言語であるハードウェアコード生成を含む、コード生成のようなドメインにおいて、ますます大きな役割を担っている。
しかし、Pythonのようなソフトウェア言語で利用可能なコード量と比較して、一般公開されているVerilogコードの量は減っている。
本稿では,他の3つのハードウェア記述言語(VHDL,Chisel,PyMTL3)をVerilogに翻訳あるいはコンパイルすることで,利用可能な人手によるVerilogデータの量を増やすためのデータセットであるhdl2v(HDL-to-Verilog)をVerilogに提示する。
さらに, LLM Verilog 生成におけるhdl2v の価値を, 大きなモデルからのデータ拡張や知識蒸留を使わずに, 32億パラメータのオープンウェイトモデルの性能を最大 23% (pass@10) 向上させることにより実証した。
また、hdl2vがデータ拡張ベースの微調整手法の性能を63%向上させることを示す。
最後に、HDL-to-Verilogデータセットの特徴をよりよく理解するために、我々のデータセットを特徴付け、分析し、分析する。
関連論文リスト
- HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases [57.51078142561683]
大規模言語モデル(LLM)は、ハードウェア設計タスクにおいてその可能性を実証している。
しかし、実際のリポジトリレベルのHDLプロジェクトでのパフォーマンスは、数千から数万のコード行で妨げられています。
グラフ検索拡張生成(Graph RAG)とLLMを統合する新しいフレームワークであるHDLxGraphを提案する。
論文 参考訳(メタデータ) (2025-05-21T16:14:10Z) - Code2Logic: Game-Code-Driven Data Synthesis for Enhancing VLMs General Reasoning [69.7882311630412]
マルチモーダル推論データ合成のための新しいゲームコード駆動型アプローチであるCode2Logicを提案する。
提案手法では,Large Language Models (LLM) を用いてゲームコードに適応し,推論プロセスと結果の自動取得を可能にする。
GameQAはコスト効率が高くスケーラブルで、最先端のモデルには挑戦的であり、30のゲームと158のタスクで多種多様である。
論文 参考訳(メタデータ) (2025-05-20T03:47:44Z) - CodeV: Empowering LLMs with HDL Generation through Multi-Level Summarization [32.462699328256384]
ハードウェア設計に大規模な言語モデルを適用する従来の方法は、合成HDLデータセットに依存している。
本稿では,多レベル要約データ合成プロセスとChat-FIM-Tag教師付き微調整手法を統合したHDL生成のための効率的なLCM微調整パイプラインを提案する。
論文 参考訳(メタデータ) (2024-07-15T03:57:20Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - Data is all you need: Finetuning LLMs for Chip Design via an Automated design-data augmentation framework [50.02710905062184]
本稿では,Verilog と EDA スクリプトに適合する高ボリュームかつ高品質な自然言語を生成する自動設計データ拡張フレームワークを提案する。
Verilog生成の精度は現在の最先端のオープンソースVerilog生成モデルを超え、同じベンチマークで58.8%から70.6%に増加した。
論文 参考訳(メタデータ) (2024-03-17T13:01:03Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。