論文の概要: CodeV: Empowering LLMs with HDL Generation through Multi-Level Summarization
- arxiv url: http://arxiv.org/abs/2407.10424v5
- Date: Sun, 11 May 2025 07:35:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.624022
- Title: CodeV: Empowering LLMs with HDL Generation through Multi-Level Summarization
- Title(参考訳): CodeV:マルチレベル要約によるHDL生成によるLLMの強化
- Authors: Yang Zhao, Di Huang, Chongxiao Li, Pengwei Jin, Muxin Song, Yinan Xu, Ziyuan Nan, Mingju Gao, Tianyun Ma, Lei Qi, Yansong Pan, Zhenxing Zhang, Rui Zhang, Xishan Zhang, Zidong Du, Qi Guo, Xing Hu,
- Abstract要約: ハードウェア設計に大規模な言語モデルを適用する従来の方法は、合成HDLデータセットに依存している。
本稿では,多レベル要約データ合成プロセスとChat-FIM-Tag教師付き微調整手法を統合したHDL生成のための効率的なLCM微調整パイプラインを提案する。
- 参考スコア(独自算出の注目度): 32.462699328256384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The design flow of processors, particularly in hardware description languages (HDL) like Verilog and Chisel, is complex and costly. While recent advances in large language models (LLMs) have significantly improved coding tasks in software languages such as Python, their application in HDL generation remains limited due to the scarcity of high-quality HDL data. Traditional methods of adapting LLMs for hardware design rely on synthetic HDL datasets, which often suffer from low quality because even advanced LLMs like GPT perform poorly in the HDL domain. Moreover, these methods focus solely on chat tasks and the Verilog language, limiting their application scenarios. In this paper, we observe that: (1) HDL code collected from the real world is of higher quality than code generated by LLMs. (2) LLMs like GPT-3.5 excel in summarizing HDL code rather than generating it. (3) An explicit language tag can help LLMs better adapt to the target language when there is insufficient data. Based on these observations, we propose an efficient LLM fine-tuning pipeline for HDL generation that integrates a multi-level summarization data synthesis process with a novel Chat-FIM-Tag supervised fine-tuning method. The pipeline enhances the generation of HDL code from natural language descriptions and enables the handling of various tasks such as chat and infilling incomplete code. Utilizing this pipeline, we introduce CodeV, a series of HDL generation LLMs. Among them, CodeV-All not only possesses a more diverse range of language abilities, i.e. Verilog and Chisel, and a broader scope of tasks, i.e. Chat and fill-in-middle (FIM), but it also achieves performance on VerilogEval that is comparable to or even surpasses that of CodeV-Verilog fine-tuned on Verilog only, making them the first series of open-source LLMs designed for multi-scenario HDL generation.
- Abstract(参考訳): プロセッサの設計フロー、特にVerilogやChiselのようなハードウェア記述言語(HDL)は複雑でコストがかかる。
大規模言語モデル(LLM)の最近の進歩はPythonのようなソフトウェア言語のコーディングタスクを大幅に改善しているが、高品質なHDLデータの不足により、HDL生成におけるその応用は制限されている。
ハードウェア設計にLLMを適用する従来の方法は合成HDLデータセットに依存しており、GPTのような先進的なLLMでさえHDLドメインでは性能が悪く、しばしば低品質に悩まされる。
さらに、これらのメソッドはチャットタスクとVerilog言語にのみフォーカスし、アプリケーションのシナリオを制限する。
本稿では,(1)実世界から収集したHDLコードは,LLMが生成したコードよりも高品質であることを示す。
2) GPT-3.5のようなLCMは、生成するのではなく、HDLコードの要約に優れている。
(3) 明示的な言語タグは、LLMがデータ不足時にターゲット言語に適応するのに役立ちます。
これらの観測に基づいて,多レベル要約データ合成プロセスとChat-FIM-Tag教師付き微調整手法を統合したHDL生成のための効率的なLCM微調整パイプラインを提案する。
このパイプラインは、自然言語記述からのHDLコード生成を強化し、チャットや不完全なコードへの入力など、さまざまなタスクの処理を可能にする。
このパイプラインを利用して,HDL生成LLMのシリーズであるCodeVを紹介する。
中でもCodeV-Allは、より多様な言語能力、すなわちVerilogとChisel、そしてより広い範囲のタスク、すなわちChatとFill-in-middle(FIM)を持っているだけでなく、Verilogで微調整されたCodeV-Verilogに匹敵する、あるいはそれを超えるVerilogEvalのパフォーマンスも達成している。
関連論文リスト
- DeepRTL: Bridging Verilog Understanding and Generation with a Unified Representation Model [13.532046953850902]
We present DeepRTL, a unified representation model that is excs in both Verilog understanding and generation。
CodeT5+に基づいて、DeepRTLは、Verilogコードをリッチでマルチレベルな自然言語記述と整合させる包括的なデータセットに基づいて微調整されている。
我々はVerilog理解のための最初のベンチマークを導入し、埋め込み類似性とGPTスコアを適用してモデルの理解能力を評価する。
論文 参考訳(メタデータ) (2025-02-20T11:07:55Z) - HiVeGen -- Hierarchical LLM-based Verilog Generation for Scalable Chip Design [55.54477725000291]
HiVeGenは階層的なVerilog生成フレームワークで、生成タスクを階層的なサブモジュールに分解する。
自動設計空間探索(DSE)を階層対応のプロンプト生成に変換し、コードの再利用を強化するために重みに基づく検索を導入する。
エラー補正コストを低減し、生成した設計の質を大幅に向上させる。
論文 参考訳(メタデータ) (2024-12-06T19:37:53Z) - Large Language Models as Code Executors: An Exploratory Study [29.545321608864295]
本稿では,Large Language Models (LLM) をコードエグゼキュータとして探索する。
OpenAIのo1、GPT-4o、GPT-3.5、DeepSeek、Qwen-Coderなど、さまざまなLLMでこの実現可能性を調べています。
我々は,コードスニペットを行単位で処理し,弱いモデルの精度を平均7.22%向上させるIIP(Iterative Instruction Prompting)技術を導入する。
論文 参考訳(メタデータ) (2024-10-09T08:23:22Z) - AutoVCoder: A Systematic Framework for Automated Verilog Code Generation using LLMs [27.179391677757565]
我々は,Verilogコード生成の正確性を大幅に向上するフレームワークであるAutoVCoderを開発した。
本フレームワークは,高品質なハードウェアデータセット生成手法を含む3つの新しい手法を統合する。
AutoVCoderは、BetterVと比較して、EvalMachineとEvalHumanのベンチマークで機能的正しさが0.5%と2.2%向上している。
論文 参考訳(メタデータ) (2024-07-21T16:42:45Z) - InverseCoder: Unleashing the Power of Instruction-Tuned Code LLMs with Inverse-Instruct [43.7550233177368]
本稿では,逆ではなくコードスニペットからの命令を要約したINVERSE-INSTRUCTを提案する。
InverseCoder というコード LLM のシリーズを提示する。これは、広範囲のベンチマークにおいて、元のコード LLM のパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2024-07-08T08:00:05Z) - A Multi-Expert Large Language Model Architecture for Verilog Code Generation [5.159745269633967]
本稿では,Verilog Code Generation (MEV-LLM) のための,革新的なマルチエキスパート LLM アーキテクチャを提案する。
我々のアーキテクチャは、複数のLCMを一意に統合しており、それぞれが、異なるレベルの設計複雑さに対して分類されたデータセットで微調整されている。
実験から得られた実証的な証拠は、構文的に、機能的に正しい生成したVerilog出力の比率において顕著な改善点を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-04-11T16:58:29Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - Data is all you need: Finetuning LLMs for Chip Design via an Automated design-data augmentation framework [50.02710905062184]
本稿では,Verilog と EDA スクリプトに適合する高ボリュームかつ高品質な自然言語を生成する自動設計データ拡張フレームワークを提案する。
Verilog生成の精度は現在の最先端のオープンソースVerilog生成モデルを超え、同じベンチマークで58.8%から70.6%に増加した。
論文 参考訳(メタデータ) (2024-03-17T13:01:03Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
Genixerは4つの重要なステップからなる包括的なデータ生成パイプラインである。
LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10のパフォーマンスを向上させる。
タスク固有のデータセットで訓練されたMLLMは、複雑な命令チューニングデータを生成する際に、GPT-4Vを超えることができる。
論文 参考訳(メタデータ) (2023-12-11T09:44:41Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z) - Benchmarking Large Language Models for Automated Verilog RTL Code
Generation [21.747037230069854]
有用なVerilogを生成するために,大規模言語モデル(LLM)を特徴付ける。
機能解析のためのテストベンチと,Verilogコードの構文をテストするフローからなる評価フレームワークを構築した。
その結果,LLMの微調整結果は,構文的に正しいコードを生成する能力が高いことがわかった。
論文 参考訳(メタデータ) (2022-12-13T16:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。