論文の概要: CodeV: Empowering LLMs with HDL Generation through Multi-Level Summarization
- arxiv url: http://arxiv.org/abs/2407.10424v5
- Date: Sun, 11 May 2025 07:35:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.624022
- Title: CodeV: Empowering LLMs with HDL Generation through Multi-Level Summarization
- Title(参考訳): CodeV:マルチレベル要約によるHDL生成によるLLMの強化
- Authors: Yang Zhao, Di Huang, Chongxiao Li, Pengwei Jin, Muxin Song, Yinan Xu, Ziyuan Nan, Mingju Gao, Tianyun Ma, Lei Qi, Yansong Pan, Zhenxing Zhang, Rui Zhang, Xishan Zhang, Zidong Du, Qi Guo, Xing Hu,
- Abstract要約: ハードウェア設計に大規模な言語モデルを適用する従来の方法は、合成HDLデータセットに依存している。
本稿では,多レベル要約データ合成プロセスとChat-FIM-Tag教師付き微調整手法を統合したHDL生成のための効率的なLCM微調整パイプラインを提案する。
- 参考スコア(独自算出の注目度): 32.462699328256384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The design flow of processors, particularly in hardware description languages (HDL) like Verilog and Chisel, is complex and costly. While recent advances in large language models (LLMs) have significantly improved coding tasks in software languages such as Python, their application in HDL generation remains limited due to the scarcity of high-quality HDL data. Traditional methods of adapting LLMs for hardware design rely on synthetic HDL datasets, which often suffer from low quality because even advanced LLMs like GPT perform poorly in the HDL domain. Moreover, these methods focus solely on chat tasks and the Verilog language, limiting their application scenarios. In this paper, we observe that: (1) HDL code collected from the real world is of higher quality than code generated by LLMs. (2) LLMs like GPT-3.5 excel in summarizing HDL code rather than generating it. (3) An explicit language tag can help LLMs better adapt to the target language when there is insufficient data. Based on these observations, we propose an efficient LLM fine-tuning pipeline for HDL generation that integrates a multi-level summarization data synthesis process with a novel Chat-FIM-Tag supervised fine-tuning method. The pipeline enhances the generation of HDL code from natural language descriptions and enables the handling of various tasks such as chat and infilling incomplete code. Utilizing this pipeline, we introduce CodeV, a series of HDL generation LLMs. Among them, CodeV-All not only possesses a more diverse range of language abilities, i.e. Verilog and Chisel, and a broader scope of tasks, i.e. Chat and fill-in-middle (FIM), but it also achieves performance on VerilogEval that is comparable to or even surpasses that of CodeV-Verilog fine-tuned on Verilog only, making them the first series of open-source LLMs designed for multi-scenario HDL generation.
- Abstract(参考訳): プロセッサの設計フロー、特にVerilogやChiselのようなハードウェア記述言語(HDL)は複雑でコストがかかる。
大規模言語モデル(LLM)の最近の進歩はPythonのようなソフトウェア言語のコーディングタスクを大幅に改善しているが、高品質なHDLデータの不足により、HDL生成におけるその応用は制限されている。
ハードウェア設計にLLMを適用する従来の方法は合成HDLデータセットに依存しており、GPTのような先進的なLLMでさえHDLドメインでは性能が悪く、しばしば低品質に悩まされる。
さらに、これらのメソッドはチャットタスクとVerilog言語にのみフォーカスし、アプリケーションのシナリオを制限する。
本稿では,(1)実世界から収集したHDLコードは,LLMが生成したコードよりも高品質であることを示す。
2) GPT-3.5のようなLCMは、生成するのではなく、HDLコードの要約に優れている。
(3) 明示的な言語タグは、LLMがデータ不足時にターゲット言語に適応するのに役立ちます。
これらの観測に基づいて,多レベル要約データ合成プロセスとChat-FIM-Tag教師付き微調整手法を統合したHDL生成のための効率的なLCM微調整パイプラインを提案する。
このパイプラインは、自然言語記述からのHDLコード生成を強化し、チャットや不完全なコードへの入力など、さまざまなタスクの処理を可能にする。
このパイプラインを利用して,HDL生成LLMのシリーズであるCodeVを紹介する。
中でもCodeV-Allは、より多様な言語能力、すなわちVerilogとChisel、そしてより広い範囲のタスク、すなわちChatとFill-in-middle(FIM)を持っているだけでなく、Verilogで微調整されたCodeV-Verilogに匹敵する、あるいはそれを超えるVerilogEvalのパフォーマンスも達成している。
関連論文リスト
- Chain-of-Descriptions: Improving Code LLMs for VHDL Code Generation and Summarization [4.7966941517322725]
大規模言語モデル(LLM)は様々なNLPタスクやドメインで広く使われている。
LLMは、登録-転送レベル(RTL)コード生成や要約といったタスクを約束する。
本稿では,VHDL コード生成および要約タスクにおける LLM の性能向上を目的とした Chain-of-Descriptions (CoDes) を提案する。
論文 参考訳(メタデータ) (2025-07-16T15:05:30Z) - DeepRTL: Bridging Verilog Understanding and Generation with a Unified Representation Model [13.532046953850902]
We present DeepRTL, a unified representation model that is excs in both Verilog understanding and generation。
CodeT5+に基づいて、DeepRTLは、Verilogコードをリッチでマルチレベルな自然言語記述と整合させる包括的なデータセットに基づいて微調整されている。
我々はVerilog理解のための最初のベンチマークを導入し、埋め込み類似性とGPTスコアを適用してモデルの理解能力を評価する。
論文 参考訳(メタデータ) (2025-02-20T11:07:55Z) - Exploring Code Language Models for Automated HLS-based Hardware Generation: Benchmark, Infrastructure and Analysis [14.458529723566379]
LLM(Large Language Model)は、PythonやC++などのプログラミング言語に使用される。
本稿では,LLMを利用してHLS(High-Level Synthesis)ベースのハードウェア設計を行う。
論文 参考訳(メタデータ) (2025-02-19T17:53:59Z) - Enabling New HDLs with Agents [0.24578723416255746]
LLM(Large Language Models)ベースのエージェントは、プログラミング言語のランドスケープを変革している。
本稿では,ハードウェア記述言語(HDL)におけるLLMの実現に向けた課題と解決策について検討する。
さまざまなHDLに関する限られた知識を持つLLM向けに最適化されたAIエージェントであるHDLAgentが導入されている。
論文 参考訳(メタデータ) (2024-12-31T20:37:20Z) - HiVeGen -- Hierarchical LLM-based Verilog Generation for Scalable Chip Design [55.54477725000291]
HiVeGenは階層的なVerilog生成フレームワークで、生成タスクを階層的なサブモジュールに分解する。
自動設計空間探索(DSE)を階層対応のプロンプト生成に変換し、コードの再利用を強化するために重みに基づく検索を導入する。
エラー補正コストを低減し、生成した設計の質を大幅に向上させる。
論文 参考訳(メタデータ) (2024-12-06T19:37:53Z) - Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。
結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文 参考訳(メタデータ) (2024-11-06T10:28:46Z) - Large Language Models as Code Executors: An Exploratory Study [29.545321608864295]
本稿では,Large Language Models (LLM) をコードエグゼキュータとして探索する。
OpenAIのo1、GPT-4o、GPT-3.5、DeepSeek、Qwen-Coderなど、さまざまなLLMでこの実現可能性を調べています。
我々は,コードスニペットを行単位で処理し,弱いモデルの精度を平均7.22%向上させるIIP(Iterative Instruction Prompting)技術を導入する。
論文 参考訳(メタデータ) (2024-10-09T08:23:22Z) - AutoVCoder: A Systematic Framework for Automated Verilog Code Generation using LLMs [27.179391677757565]
我々は,Verilogコード生成の正確性を大幅に向上するフレームワークであるAutoVCoderを開発した。
本フレームワークは,高品質なハードウェアデータセット生成手法を含む3つの新しい手法を統合する。
AutoVCoderは、BetterVと比較して、EvalMachineとEvalHumanのベンチマークで機能的正しさが0.5%と2.2%向上している。
論文 参考訳(メタデータ) (2024-07-21T16:42:45Z) - Case2Code: Scalable Synthetic Data for Code Generation [105.89741089673575]
大規模言語モデル(LLM)は、コード生成において顕著なブレークスルーを示している。
最近の研究は、いくつかの強力なLLMによって生成された合成データをトレーニングすることで、コードLLMを改善している。
プログラムの表現性と正確性を利用したtextbfCase2Code タスクを提案する。
論文 参考訳(メタデータ) (2024-07-17T11:35:00Z) - InverseCoder: Unleashing the Power of Instruction-Tuned Code LLMs with Inverse-Instruct [43.7550233177368]
本稿では,逆ではなくコードスニペットからの命令を要約したINVERSE-INSTRUCTを提案する。
InverseCoder というコード LLM のシリーズを提示する。これは、広範囲のベンチマークにおいて、元のコード LLM のパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2024-07-08T08:00:05Z) - VHDL-Eval: A Framework for Evaluating Large Language Models in VHDL Code Generation [4.700008016247411]
本稿では,VHDLコード生成タスクの評価に特化して設計された包括的評価フレームワークを提案する。
このデータセットは、Verilog評価問題の集合をVHDLに翻訳し、公開されているVHDL問題を集約することにより、合計202の問題を発生させる。
生成したVHDL符号の機能的正当性を評価するために, 自己検証テストベンチのキュレートセットを利用する。
論文 参考訳(メタデータ) (2024-06-06T00:06:50Z) - A Multi-Expert Large Language Model Architecture for Verilog Code Generation [5.159745269633967]
本稿では,Verilog Code Generation (MEV-LLM) のための,革新的なマルチエキスパート LLM アーキテクチャを提案する。
我々のアーキテクチャは、複数のLCMを一意に統合しており、それぞれが、異なるレベルの設計複雑さに対して分類されたデータセットで微調整されている。
実験から得られた実証的な証拠は、構文的に、機能的に正しい生成したVerilog出力の比率において顕著な改善点を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-04-11T16:58:29Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - HDLdebugger: Streamlining HDL debugging with Large Language Models [20.09481664579469]
チップ設計の分野では、ハードウェア記述言語(HDL)が重要な役割を果たしている。
大規模言語モデル(LLM)のソフトウェアコードの生成、完成、検査における強力な能力にもかかわらず、HDLデバッグの専門分野における利用は制限されている。
本稿では, 逆エンジニアリング手法によるHDLデータ生成, 検索拡張生成のための検索エンジン, 検索拡張LDMファインチューニング手法によるHDLgerというフレームワークを提案する。
HDLgerはHuaweiから提供されたHDLコードデータセットで実施した実験により,HDLgerが13件の切断に優れていることが判明した。
論文 参考訳(メタデータ) (2024-03-18T11:19:37Z) - Data is all you need: Finetuning LLMs for Chip Design via an Automated design-data augmentation framework [50.02710905062184]
本稿では,Verilog と EDA スクリプトに適合する高ボリュームかつ高品質な自然言語を生成する自動設計データ拡張フレームワークを提案する。
Verilog生成の精度は現在の最先端のオープンソースVerilog生成モデルを超え、同じベンチマークで58.8%から70.6%に増加した。
論文 参考訳(メタデータ) (2024-03-17T13:01:03Z) - IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators [49.903001442804594]
本研究では、コンパイラ中間表現(IR)を活用して、Code-LMの多言語機能を改善する可能性について検討する。
まず,約400万のソースコードファイルからなる並列データセットであるSLTransをコンパイルする。
次に、SLTransにおける因果言語モデリングトレーニングを継続して実施し、Code-LMはIR言語を学習せざるを得なかった。
IRCoderと呼ばれる結果のモデルは、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。
論文 参考訳(メタデータ) (2024-03-06T17:52:08Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
Genixerは4つの重要なステップからなる包括的なデータ生成パイプラインである。
LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10のパフォーマンスを向上させる。
タスク固有のデータセットで訓練されたMLLMは、複雑な命令チューニングデータを生成する際に、GPT-4Vを超えることができる。
論文 参考訳(メタデータ) (2023-12-11T09:44:41Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z) - Benchmarking Large Language Models for Automated Verilog RTL Code
Generation [21.747037230069854]
有用なVerilogを生成するために,大規模言語モデル(LLM)を特徴付ける。
機能解析のためのテストベンチと,Verilogコードの構文をテストするフローからなる評価フレームワークを構築した。
その結果,LLMの微調整結果は,構文的に正しいコードを生成する能力が高いことがわかった。
論文 参考訳(メタデータ) (2022-12-13T16:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。