論文の概要: Benchmarking Large Language Models for Automated Verilog RTL Code
Generation
- arxiv url: http://arxiv.org/abs/2212.11140v1
- Date: Tue, 13 Dec 2022 16:34:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 03:04:06.942255
- Title: Benchmarking Large Language Models for Automated Verilog RTL Code
Generation
- Title(参考訳): Verilog RTLコード自動生成のための大規模言語モデルのベンチマーク
- Authors: Shailja Thakur, Baleegh Ahmad, Zhenxing Fan, Hammond Pearce, Benjamin
Tan, Ramesh Karri, Brendan Dolan-Gavitt, Siddharth Garg
- Abstract要約: 有用なVerilogを生成するために,大規模言語モデル(LLM)を特徴付ける。
機能解析のためのテストベンチと,Verilogコードの構文をテストするフローからなる評価フレームワークを構築した。
その結果,LLMの微調整結果は,構文的に正しいコードを生成する能力が高いことがわかった。
- 参考スコア(独自算出の注目度): 21.747037230069854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automating hardware design could obviate a significant amount of human error
from the engineering process and lead to fewer errors. Verilog is a popular
hardware description language to model and design digital systems, thus
generating Verilog code is a critical first step. Emerging large language
models (LLMs) are able to write high-quality code in other programming
languages. In this paper, we characterize the ability of LLMs to generate
useful Verilog. For this, we fine-tune pre-trained LLMs on Verilog datasets
collected from GitHub and Verilog textbooks. We construct an evaluation
framework comprising test-benches for functional analysis and a flow to test
the syntax of Verilog code generated in response to problems of varying
difficulty. Our findings show that across our problem scenarios, the
fine-tuning results in LLMs more capable of producing syntactically correct
code (25.9% overall). Further, when analyzing functional correctness, a
fine-tuned open-source CodeGen LLM can outperform the state-of-the-art
commercial Codex LLM (6.5% overall). Training/evaluation scripts and LLM
checkpoints are available: https://github.com/shailja-thakur/VGen.
- Abstract(参考訳): ハードウェア設計の自動化は、エンジニアリングプロセスから大量のヒューマンエラーを回避し、エラーを少なくする可能性がある。
Verilogはデジタルシステムをモデル化し設計するための一般的なハードウェア記述言語であり、Verilogコードを生成することは重要な第一歩である。
新たな大規模言語モデル(LLM)は、他のプログラミング言語で高品質なコードを書くことができる。
本稿では,LLMが有用なVerilogを生成する能力を特徴付ける。
このために、GitHubとVerilogの教科書から収集されたVerilogデータセット上で、事前トレーニングされたLLMを微調整します。
本稿では,機能解析のためのテストベンチと,様々な難易度の問題に対応するために生成したVerilogコードの構文をテストするフローからなる評価フレームワークを構築する。
その結果,LLMの微調整結果は,構文的に正しいコードを生成する能力(全体の25.9%)が高いことがわかった。
さらに、機能的正しさを分析する際には、微調整されたオープンソースCodeGen LLMが最先端の商用Codex LLM(全体の6.5%)より優れている。
トレーニング/評価スクリプトとLDMチェックポイントが利用可能だ。
関連論文リスト
- A & B == B & A: Triggering Logical Reasoning Failures in Large Language
Models [65.86149763739141]
LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。
LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。
その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Decoding Logic Errors: A Comparative Study on Bug Detection by Students
and Large Language Models [5.162225137921625]
大規模言語モデル(LLM)は、最近、様々な計算タスクにおいて驚くべきパフォーマンスを示した。
GPT-3 と GPT-4 の2つの LLM の性能について検討した。
論文 参考訳(メタデータ) (2023-11-27T17:28:33Z) - ML-Bench: Large Language Models Leverage Open-source Libraries for
Machine Learning Tasks [75.12666425091702]
大規模な言語モデルは、コード生成ベンチマークで有望なパフォーマンスを示している。
この研究は、LLMがオープンソースのライブラリを使用して機械学習タスクを終了する、新たな評価設定を提案することを目的としている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Exploring Large Language Models for Code Explanation [3.2570216147409514]
大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げている。
本研究では,様々なLLMを用いて,コードスニペットの自然言語要約を生成するタスクについて検討する。
論文 参考訳(メタデータ) (2023-10-25T14:38:40Z) - VerilogEval: Evaluating Large Language Models for Verilog Code
Generation [6.88526119890374]
本稿では,VerilogインストラクショナルWebサイトHDLBitsの156問題からなる総合評価データセットを提案する。
評価セットは、単純な組合せ回路から複雑な有限状態マシンまで、様々なVerilogコード生成タスクからなる。
論文 参考訳(メタデータ) (2023-09-14T09:15:34Z) - VeriGen: A Large Language Model for Verilog Code Generation [22.837558083876743]
GitHubとVerilogの教科書からコンパイルされたVerilogデータセット上に、既存のLarge Language Models(LLM)を微調整します。
ここでは、細調整されたオープンソースのCodeGen-16Bモデルにより、商用のGPT-3.5-turboモデルよりも1.1%向上した。
特に、様々な問題カテゴリにまたがって構文的に正しいVerilogコードを生成することで、事前訓練済みのVerilogコードよりも41%改善されている。
論文 参考訳(メタデータ) (2023-07-28T02:57:14Z) - The potential of LLMs for coding with low-resource and domain-specific
programming languages [0.0]
本研究は,オープンソースソフトウェアGreetlのハンスル(Hansl)という,econometricスクリプティング言語に焦点を当てたものである。
この結果から, LLMはグレタブルコードの記述, 理解, 改善, 文書化に有用なツールであることが示唆された。
論文 参考訳(メタデータ) (2023-07-24T17:17:13Z) - ALGO: Synthesizing Algorithmic Programs with LLM-Generated Oracle
Verifiers [60.6418431624873]
大きな言語モデル(LLM)は、機能記述からコードを実装するのに優れているが、アルゴリズムの問題に悩まされている。
我々は,アルゴリズムプログラムを LLM 生成 Oracle で合成するフレームワーク ALGO を提案し,その生成をガイドし,その正確性を検証する。
実験の結果,ALGOを装着すると,Codexモデルよりも8倍,CodeTよりも2.6倍の1サブミッションパス率が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-24T00:10:15Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z) - Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。
既存のアプローチは、ログ特化や手動ルール抽出に依存している。
本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文 参考訳(メタデータ) (2020-03-17T19:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。