Fugu-MT 論文翻訳(概要): Benchmarking Large Language Models for Automated Verilog RTL Code Generation

論文の概要: Benchmarking Large Language Models for Automated Verilog RTL Code Generation

arxiv url: http://arxiv.org/abs/2212.11140v1
Date: Tue, 13 Dec 2022 16:34:39 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-25 03:04:06.942255
Title: Benchmarking Large Language Models for Automated Verilog RTL Code Generation
Title（参考訳）: Verilog RTLコード自動生成のための大規模言語モデルのベンチマーク
Authors: Shailja Thakur, Baleegh Ahmad, Zhenxing Fan, Hammond Pearce, Benjamin Tan, Ramesh Karri, Brendan Dolan-Gavitt, Siddharth Garg
Abstract要約: 有用なVerilogを生成するために,大規模言語モデル(LLM)を特徴付ける。機能解析のためのテストベンチと,Verilogコードの構文をテストするフローからなる評価フレームワークを構築した。その結果,LLMの微調整結果は,構文的に正しいコードを生成する能力が高いことがわかった。
参考スコア（独自算出の注目度）: 21.747037230069854
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automating hardware design could obviate a significant amount of human error from the engineering process and lead to fewer errors. Verilog is a popular hardware description language to model and design digital systems, thus generating Verilog code is a critical first step. Emerging large language models (LLMs) are able to write high-quality code in other programming languages. In this paper, we characterize the ability of LLMs to generate useful Verilog. For this, we fine-tune pre-trained LLMs on Verilog datasets collected from GitHub and Verilog textbooks. We construct an evaluation framework comprising test-benches for functional analysis and a flow to test the syntax of Verilog code generated in response to problems of varying difficulty. Our findings show that across our problem scenarios, the fine-tuning results in LLMs more capable of producing syntactically correct code (25.9% overall). Further, when analyzing functional correctness, a fine-tuned open-source CodeGen LLM can outperform the state-of-the-art commercial Codex LLM (6.5% overall). Training/evaluation scripts and LLM checkpoints are available: https://github.com/shailja-thakur/VGen.
Abstract（参考訳）: ハードウェア設計の自動化は、エンジニアリングプロセスから大量のヒューマンエラーを回避し、エラーを少なくする可能性がある。 Verilogはデジタルシステムをモデル化し設計するための一般的なハードウェア記述言語であり、Verilogコードを生成することは重要な第一歩である。新たな大規模言語モデル(LLM)は、他のプログラミング言語で高品質なコードを書くことができる。本稿では,LLMが有用なVerilogを生成する能力を特徴付ける。このために、GitHubとVerilogの教科書から収集されたVerilogデータセット上で、事前トレーニングされたLLMを微調整します。本稿では,機能解析のためのテストベンチと,様々な難易度の問題に対応するために生成したVerilogコードの構文をテストするフローからなる評価フレームワークを構築する。その結果,LLMの微調整結果は,構文的に正しいコードを生成する能力(全体の25.9%)が高いことがわかった。さらに、機能的正しさを分析する際には、微調整されたオープンソースCodeGen LLMが最先端の商用Codex LLM(全体の6.5%)より優れている。トレーニング/評価スクリプトとLDMチェックポイントが利用可能だ。

関連論文リスト

IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
Insights from Verification: Training a Verilog Generation LLM with Reinforcement Learning with Testbench Feedback [36.69082579950107]
大規模言語モデル(LLM)は、自然言語記述からVerilog生成において強力な性能を示している。本稿では,テストベンチからの検証洞察をVerilog 生成 LLM のトレーニングに統合する手法を提案する。
論文参考訳（メタデータ） (2025-04-22T11:38:14Z)
SpecTool: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
SpecToolは、ツール使用タスクのLLM出力のエラーパターンを特定するための新しいベンチマークである。もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。 SPECTOOLの分析と洞察を使って、エラー軽減戦略をガイドすることができる。
論文参考訳（メタデータ） (2024-11-20T18:56:22Z)
Can EDA Tool Feedback Improve Verilog Generation by LLMs? [25.596711210493172]
大きな言語モデル(LLM)は、完全に機能するHDLコードを生成するための潜在的なツールとして現れています。電子設計自動化(EDA)ツールからのフィードバックを利用して,自作のVerilogの誤りを修正できることを評価する。
論文参考訳（メタデータ） (2024-11-01T17:33:28Z)
CraftRTL: High-quality Synthetic Data Generation for Verilog Code Models with Correct-by-Construction Non-Textual Representations and Targeted Code Repair [4.554742043916029]
本稿では,従来手法の合成データを用いて,Verilog 符号化における微調整 LLM の解析を行った。我々は、非テクスト表現の扱いの困難さと、ランダムに「マイナー」ミスを犯すモデルによるトレーニング中の大きな変動の2つを識別する。我々の微調整されたStarcoder2-15Bは、VerilogEval-Machine, VerilogEval-Human, RTLLMで3.8%、10.9%、pass@1で6.6%、最先端の結果よりも優れています。
論文参考訳（メタデータ） (2024-09-19T12:15:55Z)
CodeV: Empowering LLMs for Verilog Generation through Multi-Level Summarization [37.4446786461791]
本稿では,オープンソースの命令調整型Verilog生成用LLMであるCodeVを紹介する。 CodeVは以前のオープンソースSOTAを14.4%(VerilogEvalのBetterV)と11.3%(RTLCoder in RTLLM)で相対的に上回っている。
論文参考訳（メタデータ） (2024-07-15T03:57:20Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
Data is all you need: Finetuning LLMs for Chip Design via an Automated design-data augmentation framework [50.02710905062184]
本稿では,Verilog と EDA スクリプトに適合する高ボリュームかつ高品質な自然言語を生成する自動設計データ拡張フレームワークを提案する。 Verilog生成の精度は現在の最先端のオープンソースVerilog生成モデルを超え、同じベンチマークで58.8%から70.6%に増加した。
論文参考訳（メタデータ） (2024-03-17T13:01:03Z)
Decoding Logic Errors: A Comparative Study on Bug Detection by Students and Large Language Models [5.162225137921625]
大規模言語モデル(LLM)は、最近、様々な計算タスクにおいて驚くべきパフォーマンスを示した。 GPT-3 と GPT-4 の2つの LLM の性能について検討した。
論文参考訳（メタデータ） (2023-11-27T17:28:33Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
VerilogEval: Evaluating Large Language Models for Verilog Code Generation [6.88526119890374]
本稿では,VerilogインストラクショナルWebサイトHDLBitsの156問題からなる総合評価データセットを提案する。評価セットは、単純な組合せ回路から複雑な有限状態マシンまで、様々なVerilogコード生成タスクからなる。
論文参考訳（メタデータ） (2023-09-14T09:15:34Z)
VeriGen: A Large Language Model for Verilog Code Generation [22.837558083876743]
GitHubとVerilogの教科書からコンパイルされたVerilogデータセット上に、既存のLarge Language Models(LLM)を微調整します。ここでは、細調整されたオープンソースのCodeGen-16Bモデルにより、商用のGPT-3.5-turboモデルよりも1.1%向上した。特に、様々な問題カテゴリにまたがって構文的に正しいVerilogコードを生成することで、事前訓練済みのVerilogコードよりも41%改善されている。
論文参考訳（メタデータ） (2023-07-28T02:57:14Z)
LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。 LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文参考訳（メタデータ） (2023-02-16T18:23:22Z)
Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。既存のアプローチは、ログ特化や手動ルール抽出に依存している。本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文参考訳（メタデータ） (2020-03-17T19:25:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。