論文の概要: Benchmarking Large Language Models for Automated Verilog RTL Code
Generation
- arxiv url: http://arxiv.org/abs/2212.11140v1
- Date: Tue, 13 Dec 2022 16:34:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 03:04:06.942255
- Title: Benchmarking Large Language Models for Automated Verilog RTL Code
Generation
- Title(参考訳): Verilog RTLコード自動生成のための大規模言語モデルのベンチマーク
- Authors: Shailja Thakur, Baleegh Ahmad, Zhenxing Fan, Hammond Pearce, Benjamin
Tan, Ramesh Karri, Brendan Dolan-Gavitt, Siddharth Garg
- Abstract要約: 有用なVerilogを生成するために,大規模言語モデル(LLM)を特徴付ける。
機能解析のためのテストベンチと,Verilogコードの構文をテストするフローからなる評価フレームワークを構築した。
その結果,LLMの微調整結果は,構文的に正しいコードを生成する能力が高いことがわかった。
- 参考スコア(独自算出の注目度): 21.747037230069854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automating hardware design could obviate a significant amount of human error
from the engineering process and lead to fewer errors. Verilog is a popular
hardware description language to model and design digital systems, thus
generating Verilog code is a critical first step. Emerging large language
models (LLMs) are able to write high-quality code in other programming
languages. In this paper, we characterize the ability of LLMs to generate
useful Verilog. For this, we fine-tune pre-trained LLMs on Verilog datasets
collected from GitHub and Verilog textbooks. We construct an evaluation
framework comprising test-benches for functional analysis and a flow to test
the syntax of Verilog code generated in response to problems of varying
difficulty. Our findings show that across our problem scenarios, the
fine-tuning results in LLMs more capable of producing syntactically correct
code (25.9% overall). Further, when analyzing functional correctness, a
fine-tuned open-source CodeGen LLM can outperform the state-of-the-art
commercial Codex LLM (6.5% overall). Training/evaluation scripts and LLM
checkpoints are available: https://github.com/shailja-thakur/VGen.
- Abstract(参考訳): ハードウェア設計の自動化は、エンジニアリングプロセスから大量のヒューマンエラーを回避し、エラーを少なくする可能性がある。
Verilogはデジタルシステムをモデル化し設計するための一般的なハードウェア記述言語であり、Verilogコードを生成することは重要な第一歩である。
新たな大規模言語モデル(LLM)は、他のプログラミング言語で高品質なコードを書くことができる。
本稿では,LLMが有用なVerilogを生成する能力を特徴付ける。
このために、GitHubとVerilogの教科書から収集されたVerilogデータセット上で、事前トレーニングされたLLMを微調整します。
本稿では,機能解析のためのテストベンチと,様々な難易度の問題に対応するために生成したVerilogコードの構文をテストするフローからなる評価フレームワークを構築する。
その結果,LLMの微調整結果は,構文的に正しいコードを生成する能力(全体の25.9%)が高いことがわかった。
さらに、機能的正しさを分析する際には、微調整されたオープンソースCodeGen LLMが最先端の商用Codex LLM(全体の6.5%)より優れている。
トレーニング/評価スクリプトとLDMチェックポイントが利用可能だ。
関連論文リスト
- SpecTool: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
SpecToolは、ツール使用タスクのLLM出力のエラーパターンを特定するための新しいベンチマークである。
もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。
SPECTOOLの分析と洞察を使って、エラー軽減戦略をガイドすることができる。
論文 参考訳(メタデータ) (2024-11-20T18:56:22Z) - Can EDA Tool Feedback Improve Verilog Generation by LLMs? [25.596711210493172]
大きな言語モデル(LLM)は、完全に機能するHDLコードを生成するための潜在的なツールとして現れています。
電子設計自動化(EDA)ツールからのフィードバックを利用して,自作のVerilogの誤りを修正できることを評価する。
論文 参考訳(メタデータ) (2024-11-01T17:33:28Z) - CodeV: Empowering LLMs for Verilog Generation through Multi-Level Summarization [37.4446786461791]
本稿では,オープンソースの命令調整型Verilog生成用LLMであるCodeVを紹介する。
CodeVは以前のオープンソースSOTAを14.4%(VerilogEvalのBetterV)と11.3%(RTLCoder in RTLLM)で相対的に上回っている。
論文 参考訳(メタデータ) (2024-07-15T03:57:20Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - Data is all you need: Finetuning LLMs for Chip Design via an Automated design-data augmentation framework [50.02710905062184]
本稿では,Verilog と EDA スクリプトに適合する高ボリュームかつ高品質な自然言語を生成する自動設計データ拡張フレームワークを提案する。
Verilog生成の精度は現在の最先端のオープンソースVerilog生成モデルを超え、同じベンチマークで58.8%から70.6%に増加した。
論文 参考訳(メタデータ) (2024-03-17T13:01:03Z) - Decoding Logic Errors: A Comparative Study on Bug Detection by Students
and Large Language Models [5.162225137921625]
大規模言語モデル(LLM)は、最近、様々な計算タスクにおいて驚くべきパフォーマンスを示した。
GPT-3 と GPT-4 の2つの LLM の性能について検討した。
論文 参考訳(メタデータ) (2023-11-27T17:28:33Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - VerilogEval: Evaluating Large Language Models for Verilog Code
Generation [6.88526119890374]
本稿では,VerilogインストラクショナルWebサイトHDLBitsの156問題からなる総合評価データセットを提案する。
評価セットは、単純な組合せ回路から複雑な有限状態マシンまで、様々なVerilogコード生成タスクからなる。
論文 参考訳(メタデータ) (2023-09-14T09:15:34Z) - VeriGen: A Large Language Model for Verilog Code Generation [22.837558083876743]
GitHubとVerilogの教科書からコンパイルされたVerilogデータセット上に、既存のLarge Language Models(LLM)を微調整します。
ここでは、細調整されたオープンソースのCodeGen-16Bモデルにより、商用のGPT-3.5-turboモデルよりも1.1%向上した。
特に、様々な問題カテゴリにまたがって構文的に正しいVerilogコードを生成することで、事前訓練済みのVerilogコードよりも41%改善されている。
論文 参考訳(メタデータ) (2023-07-28T02:57:14Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z) - Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。
既存のアプローチは、ログ特化や手動ルール抽出に依存している。
本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文 参考訳(メタデータ) (2020-03-17T19:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。