論文の概要: Can EDA Tool Feedback Improve Verilog Generation by LLMs?
- arxiv url: http://arxiv.org/abs/2411.11856v1
- Date: Fri, 01 Nov 2024 17:33:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-24 05:33:09.896224
- Title: Can EDA Tool Feedback Improve Verilog Generation by LLMs?
- Title(参考訳): EDAツールのフィードバックはLLMによるVerilog生成を改善するか?
- Authors: Jason Blocklove, Shailja Thakur, Benjamin Tan, Hammond Pearce, Siddharth Garg, Ramesh Karri,
- Abstract要約: 大きな言語モデル(LLM)は、完全に機能するHDLコードを生成するための潜在的なツールとして現れています。
電子設計自動化(EDA)ツールからのフィードバックを利用して,自作のVerilogの誤りを修正できることを評価する。
- 参考スコア(独自算出の注目度): 25.596711210493172
- License:
- Abstract: Traditionally, digital hardware designs are written in the Verilog hardware description language (HDL) and debugged manually by engineers. This can be time-consuming and error-prone for complex designs. Large Language Models (LLMs) are emerging as a potential tool to help generate fully functioning HDL code, but most works have focused on generation in the single-shot capacity: i.e., run and evaluate, a process that does not leverage debugging and as such does not adequately reflect a realistic development process. In this work we evaluate the ability of LLMs to leverage feedback from electronic design automation (EDA) tools to fix mistakes in their own generated Verilog. To accomplish this we present an open-source, highly customizable framework, AutoChip, which combines conversational LLMs with the output from Verilog compilers and simulations to iteratively generate and repair Verilog. To determine the success of these LLMs we leverage the VerilogEval benchmark set. We evaluate four state-of-the-art conversational LLMs, focusing on readily accessible commercial models. EDA tool feedback proved to be consistently more effective than zero-shot prompting only with GPT-4o, the most computationally complex model we evaluated. In the best case we observed a 5.8% increase in the number of successful designs with a 34.2% decrease in cost over the best zero-shot results. Mixing smaller models with this larger model at the end of the feedback iterations resulted in equally as much success as with GPT-4o using feedback, but for an additional 41.9% less cost (overall decrease in cost over zero-shot of 89.6%).
- Abstract(参考訳): 伝統的に、デジタルハードウェアの設計はVerilogハードウェア記述言語(HDL)で書かれ、エンジニアによって手動でデバッグされる。
これは複雑な設計には時間がかかるし、エラーも起こりやすい。
大きな言語モデル(LLM)は、完全に機能するHDLコードを生成するための潜在的なツールとして浮上しているが、ほとんどの研究は、単一ショットのキャパシティの生成に焦点を当てている。
本研究では,LLMが電子設計自動化(EDA)ツールからのフィードバックを利用して,生成したVerilogの誤りを修正する能力を評価する。
そこで我々は,対話型LLMとVerilogコンパイラの出力を組み合わせたオープンソースの高度にカスタマイズ可能なフレームワークAutoChipと,Verilogを反復的に生成し,修復するシミュレーションを提案する。
これらのLSMの成功を決定するために、VerilogEvalベンチマークセットを利用する。
我々は,現在最先端の会話型LLMを4つ評価し,手軽に利用できる商用モデルに焦点をあてた。
EDA ツールのフィードバックは GPT-4o でのみゼロショットよりも一貫して有効であることが判明した。
ベストケースでは、最高のゼロショット結果よりも34.2%のコスト削減で成功したデザインの数が5.8%増加した。
フィードバックイテレーションの最後に、このより小さなモデルとこのモデルを組み合わせることで、GPT-4oと同じ程度の成功を収めることができたが、追加で41.9%のコストが削減された(全モデルで89.6%のゼロショットよりもコストが削減された)。
関連論文リスト
- Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-11-23T08:06:06Z) - Precision or Peril: Evaluating Code Quality from Quantized Large Language Models [0.5249805590164902]
量子化は、大規模言語モデルのメモリオーバーヘッドを軽減する手段として登場した。
本研究の目的は、様々なメトリクスを用いて、より小さなLCMのコード生成能力を評価することである。
論文 参考訳(メタデータ) (2024-11-16T01:31:29Z) - MetRex: A Benchmark for Verilog Code Metric Reasoning Using LLMs [2.0921175288836746]
大規模言語モデル(LLM)は、Verilogコード生成、EDAツールスクリプティング、RTLバグ修正など、様々なハードウェア設計タスクに適用されている。
本稿では,LLMがVerilog設計の合成後メトリクスを推論する能力を評価する。
MetRexは25,868のVerilog HDL設計とそれに対応する合成後測定値(面積,遅延,静的パワー)からなる大規模データセットである。
論文 参考訳(メタデータ) (2024-11-05T19:52:58Z) - Revisiting VerilogEval: Newer LLMs, In-Context Learning, and Specification-to-RTL Tasks [6.463959200930805]
改良されたVerilogEvalベンチマークスイートに対して,様々なサイズの商用およびオープンソースモデルの評価を行った。
GPT-4 Turboは,仕様からRTLタスクにおいて59%のパスレートを達成した。
また、オープンソースおよびドメイン固有モデルの性能について検討し、モデルがICLから大きな恩恵を受けることを実証する。
論文 参考訳(メタデータ) (2024-08-20T17:58:56Z) - See What LLMs Cannot Answer: A Self-Challenge Framework for Uncovering LLM Weaknesses [51.975495361024606]
本稿では,Human-in-the-loopを用いたセルフチェレンジ評価フレームワークを提案する。
GPT-4が答えられないシードインスタンスから始めて、GPT-4に新しいインスタンスを生成するのに使えるエラーパターンを要約するように促します。
次に,GPT-4が生成する1,835個のインスタンスと,人手によるゴールド応答を併用したベンチマーク,SC-G4を構築した。
論文 参考訳(メタデータ) (2024-08-16T19:01:52Z) - MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents [62.02920842630234]
GPT-4レベルの性能を持つが400倍の低コストでファクトチェックモデルを構築する方法を示す。
GPT-4を用いて合成トレーニングデータを構築することで,現実的かつ困難な事実エラーの事例を生成する。
評価のために, ファクトチェックとグラウンドグラウンド化に関する最近の研究から得られたデータセットを, 新たなベンチマーク LLM-AggreFact に統一する。
論文 参考訳(メタデータ) (2024-04-16T17:59:10Z) - Data is all you need: Finetuning LLMs for Chip Design via an Automated design-data augmentation framework [50.02710905062184]
本稿では,Verilog と EDA スクリプトに適合する高ボリュームかつ高品質な自然言語を生成する自動設計データ拡張フレームワークを提案する。
Verilog生成の精度は現在の最先端のオープンソースVerilog生成モデルを超え、同じベンチマークで58.8%から70.6%に増加した。
論文 参考訳(メタデータ) (2024-03-17T13:01:03Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - VeriGen: A Large Language Model for Verilog Code Generation [22.837558083876743]
GitHubとVerilogの教科書からコンパイルされたVerilogデータセット上に、既存のLarge Language Models(LLM)を微調整します。
ここでは、細調整されたオープンソースのCodeGen-16Bモデルにより、商用のGPT-3.5-turboモデルよりも1.1%向上した。
特に、様々な問題カテゴリにまたがって構文的に正しいVerilogコードを生成することで、事前訓練済みのVerilogコードよりも41%改善されている。
論文 参考訳(メタデータ) (2023-07-28T02:57:14Z) - Self-Refine: Iterative Refinement with Self-Feedback [62.78755306241981]
Self-Refineは、反復的なフィードバックと改善を通じて、大きな言語モデル(LLM)からの初期出力を改善するアプローチである。
GPT-3.5, ChatGPT, および GPT-4) LLM を用いて, 対話応答生成から数学的推論に至るまで, 7 つのタスクにまたがる自己決定性を評価する。
我々の研究は、GPT-4のような最先端のLCMでさえ、単純でスタンドアロンなアプローチを使用してテスト時にさらに改善できることを示します。
論文 参考訳(メタデータ) (2023-03-30T18:30:01Z) - Benchmarking Large Language Models for Automated Verilog RTL Code
Generation [21.747037230069854]
有用なVerilogを生成するために,大規模言語モデル(LLM)を特徴付ける。
機能解析のためのテストベンチと,Verilogコードの構文をテストするフローからなる評価フレームワークを構築した。
その結果,LLMの微調整結果は,構文的に正しいコードを生成する能力が高いことがわかった。
論文 参考訳(メタデータ) (2022-12-13T16:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。