論文の概要: VHDL-Eval: A Framework for Evaluating Large Language Models in VHDL Code Generation
- arxiv url: http://arxiv.org/abs/2406.04379v1
- Date: Thu, 6 Jun 2024 00:06:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 18:39:08.026917
- Title: VHDL-Eval: A Framework for Evaluating Large Language Models in VHDL Code Generation
- Title(参考訳): VHDL-Eval:VHDLコード生成における大規模言語モデル評価フレームワーク
- Authors: Prashanth Vijayaraghavan, Luyao Shi, Stefano Ambrogio, Charles Mackin, Apoorva Nitsure, David Beymer, Ehsan Degan,
- Abstract要約: 本稿では,VHDLコード生成タスクの評価に特化して設計された包括的評価フレームワークを提案する。
このデータセットは、Verilog評価問題の集合をVHDLに翻訳し、公開されているVHDL問題を集約することにより、合計202の問題を発生させる。
生成したVHDL符号の機能的正当性を評価するために, 自己検証テストベンチのキュレートセットを利用する。
- 参考スコア(独自算出の注目度): 4.700008016247411
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the unprecedented advancements in Large Language Models (LLMs), their application domains have expanded to include code generation tasks across various programming languages. While significant progress has been made in enhancing LLMs for popular programming languages, there exists a notable gap in comprehensive evaluation frameworks tailored for Hardware Description Languages (HDLs), particularly VHDL. This paper addresses this gap by introducing a comprehensive evaluation framework designed specifically for assessing LLM performance in VHDL code generation task. We construct a dataset for evaluating LLMs on VHDL code generation task. This dataset is constructed by translating a collection of Verilog evaluation problems to VHDL and aggregating publicly available VHDL problems, resulting in a total of 202 problems. To assess the functional correctness of the generated VHDL code, we utilize a curated set of self-verifying testbenches specifically designed for those aggregated VHDL problem set. We conduct an initial evaluation of different LLMs and their variants, including zero-shot code generation, in-context learning (ICL), and Parameter-efficient fine-tuning (PEFT) methods. Our findings underscore the considerable challenges faced by existing LLMs in VHDL code generation, revealing significant scope for improvement. This study emphasizes the necessity of supervised fine-tuning code generation models specifically for VHDL, offering potential benefits to VHDL designers seeking efficient code generation solutions.
- Abstract(参考訳): LLM(Large Language Models)が前例のない進歩を遂げたことにより、アプリケーションドメインは様々なプログラミング言語にまたがるコード生成タスクを含むように拡張された。
一般的なプログラミング言語のLLMの拡張には大きな進歩があるが、ハードウェア記述言語(HDL)、特にVHDLに適した包括的な評価フレームワークには注目すべきギャップがある。
本稿では,VHDLコード生成タスクにおけるLLMの性能評価に特化して設計された総合評価フレームワークを導入することで,このギャップに対処する。
VHDLコード生成タスク上でLLMを評価するデータセットを構築する。
このデータセットは、Verilog評価問題の集合をVHDLに翻訳し、公開されているVHDL問題を集約することにより、合計202の問題を発生させる。
生成したVHDL符号の関数的正当性を評価するために, 集約されたVHDL問題集合に特化して設計された自己検証テストベンチのキュレートセットを利用する。
我々は、ゼロショットコード生成、インコンテキスト学習(ICL)、パラメータ効率細調整(PEFT)など、異なるLLMとその変種を初期評価する。
本研究は,VHDLコード生成における既存のLLMの課題を浮き彫りにし,その改善範囲を明らかにした。
本研究は,VHDL専用の微調整コード生成モデルの必要性を強調し,効率的なコード生成ソリューションを求めるVHDLデザイナに潜在的なメリットを提供する。
関連論文リスト
- VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
VersiCodeは,大規模言語モデルが特定のライブラリのバージョンに対して検証可能なコードを生成する能力を評価するために設計された,最初の包括的なデータセットである。
バージョン別コード補完(VSCC)とバージョン別コード編集(VACE)の2つの専用評価タスクを設計する。
LLMのパフォーマンスをベンチマークするために総合的な実験が行われ、これらのタスクとVersiCodeの難しさを明らかにしている。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - HDLdebugger: Streamlining HDL debugging with Large Language Models [20.09481664579469]
チップ設計の分野では、ハードウェア記述言語(HDL)が重要な役割を果たしている。
大規模言語モデル(LLM)のソフトウェアコードの生成、完成、検査における強力な能力にもかかわらず、HDLデバッグの専門分野における利用は制限されている。
本稿では, 逆エンジニアリング手法によるHDLデータ生成, 検索拡張生成のための検索エンジン, 検索拡張LDMファインチューニング手法によるHDLgerというフレームワークを提案する。
HDLgerはHuaweiから提供されたHDLコードデータセットで実施した実験により,HDLgerが13件の切断に優れていることが判明した。
論文 参考訳(メタデータ) (2024-03-18T11:19:37Z) - InfiCoder-Eval: Systematically Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiCoder-Evalは、コードのQAベンチマークである。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiCoder-Eval 上で 80 以上のコード LLM に対して,系統的な評価を行い,一連の知見を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - VerilogEval: Evaluating Large Language Models for Verilog Code
Generation [6.88526119890374]
本稿では,VerilogインストラクショナルWebサイトHDLBitsの156問題からなる総合評価データセットを提案する。
評価セットは、単純な組合せ回路から複雑な有限状態マシンまで、様々なVerilogコード生成タスクからなる。
論文 参考訳(メタデータ) (2023-09-14T09:15:34Z) - CodeApex: A Bilingual Programming Evaluation Benchmark for Large
Language Models [43.655927559990616]
我々は,LLMのプログラミング理解,コード生成,コード修正能力に着目したベンチマークデータセットであるCodeApexを提案する。
汎用モデルと特化モデルの両方を含む,広く使用されているLLMを12種類評価した。
GPT-4は最高のプログラミング能力を示し、それぞれ69%、54%、66%の精度を達成している。
論文 参考訳(メタデータ) (2023-09-05T04:12:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。