Fugu-MT 論文翻訳(概要): hdl2v: A Code Translation Dataset for Enhanced LLM Verilog Generation

論文の概要: hdl2v: A Code Translation Dataset for Enhanced LLM Verilog Generation

arxiv url: http://arxiv.org/abs/2506.04544v1
Date: Thu, 05 Jun 2025 01:29:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-06 21:53:49.481185
Title: hdl2v: A Code Translation Dataset for Enhanced LLM Verilog Generation
Title（参考訳）: hdl2v: LLM Verilog生成の強化のためのコード翻訳データセット
Authors: Charles Hong, Brendan Roberts, Huijae An, Alex Um, Advay Ratan, Yakun Sophia Shao,
Abstract要約: 私たちは出席します。 HDL-to-Verilog – 人間が記述したVerilogデータの量を増やすデータセット。私たちはその価値を示します。 HDL-to-Verilogは32億重みモデルのパフォーマンスを最大23%向上させる。
参考スコア（独自算出の注目度）: 0.9149489479543916
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) are playing an increasingly large role in domains such as code generation, including hardware code generation, where Verilog is the key language. However, the amount of publicly available Verilog code pales in comparison to the amount of code available for software languages like Python. In this work, we present hdl2v ("HDL-to-Verilog"), a dataset which seeks to increase the amount of available human-written Verilog data by translating or compiling three other hardware description languages - VHDL, Chisel, and PyMTL3 - to Verilog. Furthermore, we demonstrate the value of hdl2v in enhancing LLM Verilog generation by improving performance of a 32 billion-parameter open-weight model by up to 23% (pass@10) in VerilogEvalV2, without utilizing any data augmentation or knowledge distillation from larger models. We also show hdl2v's ability to boost the performance of a data augmentation-based fine-tuning approach by 63%. Finally, we characterize and analyze our dataset to better understand which characteristics of HDL-to-Verilog datasets can be expanded upon in future work for even better performance.
Abstract（参考訳）: 大規模言語モデル(LLM)は、Verilogが主要な言語であるハードウェアコード生成を含む、コード生成のようなドメインにおいて、ますます大きな役割を担っている。しかし、Pythonのようなソフトウェア言語で利用可能なコード量と比較して、一般公開されているVerilogコードの量は減っている。本稿では,他の3つのハードウェア記述言語(VHDL,Chisel,PyMTL3)をVerilogに翻訳あるいはコンパイルすることで,利用可能な人手によるVerilogデータの量を増やすためのデータセットであるhdl2v(HDL-to-Verilog)をVerilogに提示する。さらに, LLM Verilog 生成におけるhdl2v の価値を, 大きなモデルからのデータ拡張や知識蒸留を使わずに, 32億パラメータのオープンウェイトモデルの性能を最大 23% (pass@10) 向上させることにより実証した。また、hdl2vがデータ拡張ベースの微調整手法の性能を63%向上させることを示す。最後に、HDL-to-Verilogデータセットの特徴をよりよく理解するために、我々のデータセットを特徴付け、分析し、分析する。

関連論文リスト

VerilogDB: The Largest, Highest-Quality Dataset with a Preprocessing Framework for LLM-based RTL Generation [1.0798445660490976]
大規模言語モデル(LLM)は、特にレジスタ転送レベル(RTL)コード生成を通じて、ハードウェア設計自動化において人気が高まっている。データベース(DB)の作成と管理を含む3段階の自動化プロセスを通じて,ロバストなVerilogデータセットを構築した。得られたデータセットは、20,392のVerilogサンプルと751MBのVerilogコードデータからなる。
論文参考訳（メタデータ） (2025-07-09T17:06:54Z)
HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases [57.51078142561683]
大規模言語モデル(LLM)は、ハードウェア設計タスクにおいてその可能性を実証している。しかし、実際のリポジトリレベルのHDLプロジェクトでのパフォーマンスは、数千から数万のコード行で妨げられています。グラフ検索拡張生成(Graph RAG)とLLMを統合する新しいフレームワークであるHDLxGraphを提案する。
論文参考訳（メタデータ） (2025-05-21T16:14:10Z)
Code2Logic: Game-Code-Driven Data Synthesis for Enhancing VLMs General Reasoning [69.7882311630412]
マルチモーダル推論データ合成のための新しいゲームコード駆動型アプローチであるCode2Logicを提案する。提案手法では,Large Language Models (LLM) を用いてゲームコードに適応し,推論プロセスと結果の自動取得を可能にする。 GameQAはコスト効率が高くスケーラブルで、最先端のモデルには挑戦的であり、30のゲームと158のタスクで多種多様である。
論文参考訳（メタデータ） (2025-05-20T03:47:44Z)
CodeV: Empowering LLMs with HDL Generation through Multi-Level Summarization [32.462699328256384]
ハードウェア設計に大規模な言語モデルを適用する従来の方法は、合成HDLデータセットに依存している。本稿では,多レベル要約データ合成プロセスとChat-FIM-Tag教師付き微調整手法を統合したHDL生成のための効率的なLCM微調整パイプラインを提案する。
論文参考訳（メタデータ） (2024-07-15T03:57:20Z)
VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。 VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文参考訳（メタデータ） (2024-06-11T16:15:06Z)
VHDL-Eval: A Framework for Evaluating Large Language Models in VHDL Code Generation [4.700008016247411]
本稿では,VHDLコード生成タスクの評価に特化して設計された包括的評価フレームワークを提案する。このデータセットは、Verilog評価問題の集合をVHDLに翻訳し、公開されているVHDL問題を集約することにより、合計202の問題を発生させる。生成したVHDL符号の機能的正当性を評価するために, 自己検証テストベンチのキュレートセットを利用する。
論文参考訳（メタデータ） (2024-06-06T00:06:50Z)
Data is all you need: Finetuning LLMs for Chip Design via an Automated design-data augmentation framework [50.02710905062184]
本稿では,Verilog と EDA スクリプトに適合する高ボリュームかつ高品質な自然言語を生成する自動設計データ拡張フレームワークを提案する。 Verilog生成の精度は現在の最先端のオープンソースVerilog生成モデルを超え、同じベンチマークで58.8%から70.6%に増加した。
論文参考訳（メタデータ） (2024-03-17T13:01:03Z)
Code Needs Comments: Enhancing Code LLMs with Comment Augmentation [91.52444946362547]
本稿では、既存のコードに対するコメントを生成する新しいデータ拡張手法と、自然言語と相関の低いコードデータをフィルタリングするデータフィルタリング戦略を導入する。我々は3つのコード中心の大規模言語モデルの実験を行い、2つの広く使われているプログラミングスキルベンチマークで一貫した性能向上を観察した。
論文参考訳（メタデータ） (2024-02-20T13:56:38Z)
LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文参考訳（メタデータ） (2023-11-25T02:45:50Z)
GlotLID: Language Identification for Low-Resource Languages [51.38634652914054]
GlotLID-M は広い範囲、信頼性、効率性のデシラタを満たす LID モデルである。 1665の言語を識別し、以前の作業に比べてカバー範囲が大幅に増加した。
論文参考訳（メタデータ） (2023-10-24T23:45:57Z)
Benchmarking Large Language Models for Automated Verilog RTL Code Generation [21.747037230069854]
有用なVerilogを生成するために,大規模言語モデル(LLM)を特徴付ける。機能解析のためのテストベンチと,Verilogコードの構文をテストするフローからなる評価フレームワークを構築した。その結果,LLMの微調整結果は,構文的に正しいコードを生成する能力が高いことがわかった。
論文参考訳（メタデータ） (2022-12-13T16:34:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。