論文の概要: CorrectBench: Automatic Testbench Generation with Functional Self-Correction using LLMs for HDL Design
- arxiv url: http://arxiv.org/abs/2411.08510v1
- Date: Wed, 13 Nov 2024 10:45:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:09:10.243177
- Title: CorrectBench: Automatic Testbench Generation with Functional Self-Correction using LLMs for HDL Design
- Title(参考訳): CorrectBench:HDL設計のためのLLMを用いた機能的自己補正による自動テストベンチ生成
- Authors: Ruidi Qiu, Grace Li Zhang, Rolf Drechsler, Ulf Schlichtmann, Bing Li,
- Abstract要約: 機能的自己検証と自己補正を備えた自動テストベンチ生成フレームワークであるCorrectBenchを提案する。
提案手法は, 88.85%の成功率で生成したテストベンチの正当性を検証できる。
作業性能は, 従来よりも62.18%高く, 直接手法のパス比の約5倍である。
- 参考スコア(独自算出の注目度): 6.414167153186868
- License:
- Abstract: Functional simulation is an essential step in digital hardware design. Recently, there has been a growing interest in leveraging Large Language Models (LLMs) for hardware testbench generation tasks. However, the inherent instability associated with LLMs often leads to functional errors in the generated testbenches. Previous methods do not incorporate automatic functional correction mechanisms without human intervention and still suffer from low success rates, especially for sequential tasks. To address this issue, we propose CorrectBench, an automatic testbench generation framework with functional self-validation and self-correction. Utilizing only the RTL specification in natural language, the proposed approach can validate the correctness of the generated testbenches with a success rate of 88.85%. Furthermore, the proposed LLM-based corrector employs bug information obtained during the self-validation process to perform functional self-correction on the generated testbenches. The comparative analysis demonstrates that our method achieves a pass ratio of 70.13% across all evaluated tasks, compared with the previous LLM-based testbench generation framework's 52.18% and a direct LLM-based generation method's 33.33%. Specifically in sequential circuits, our work's performance is 62.18% higher than previous work in sequential tasks and almost 5 times the pass ratio of the direct method. The codes and experimental results are open-sourced at the link: https://github.com/AutoBench/CorrectBench
- Abstract(参考訳): 機能シミュレーションは、デジタルハードウェア設計における重要なステップである。
近年,ハードウェアテストベンチ生成タスクにLLM(Large Language Models)を活用することへの関心が高まっている。
しかし、LLMに関連する固有の不安定性は、しばしば生成されたテストベンチで機能的エラーを引き起こす。
従来の手法では、人間の介入なしに自動的な機能的修正機構を組み込んでおらず、特にシーケンシャルタスクでは、成功率が低い。
この問題に対処するために,機能的自己検証と自己補正を備えた自動テストベンチ生成フレームワークであるCorrectBenchを提案する。
自然言語におけるRTL仕様のみを用いることで、提案手法は88.85%の成功率で生成されたテストベンチの正しさを検証することができる。
さらに, 提案手法では, 自己検証プロセス中に得られたバグ情報を用いて, 生成したテストベンチ上で機能的自己補正を行う。
比較分析により,従来のLLMベースのテストベンチ生成フレームワークの52.18%,直接LLMベースの33.33%と比較して,評価されたタスクのパス比が70.13%に達することが示された。
特にシーケンシャル回路では、我々の作業性能は、シーケンシャルタスクにおける前の作業よりも62.18%高く、直接手法のパス比の約5倍である。
コードと実験結果はリンクでオープンソース化されている。
関連論文リスト
- S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Efficient Neural Theorem Proving via Fine-grained Proof Structure Analysis [50.020850767257095]
本稿では,より優れたサンプル効率を有する定理証明手法であるProofAugを提案する。
本手法は,オープンソースのDeepseek-math-7bベースモデルとIsabelle証明アシスタントを用いて,miniF2F-testベンチマークで検証した。
論文 参考訳(メタデータ) (2025-01-30T12:37:06Z) - Planning-Driven Programming: A Large Language Model Programming Workflow [8.827173113748701]
大規模言語モデル(LLM)は、コード生成において強力なパフォーマーである。
近年の研究では、LCMのコード生成精度を向上させるために、可視性テストによる継続的プログラム改善が提案されている。
初期コード生成とその後の改良の両方を改善するために,LLMプログラミングワークフロー(LPW)を提案する。
論文 参考訳(メタデータ) (2024-11-21T08:31:06Z) - AutoBench: Automatic Testbench Generation and Evaluation Using LLMs for HDL Design [6.414167153186868]
テストベンチはシミュレーションベースのハードウェア検証の基礎となる。
LLM(Large Language Models)は、回路設計フローの自動化の可能性を実証している。
デジタル回路設計のための最初のLCMベースのテストベンチジェネレータであるAutoBenchを紹介する。
論文 参考訳(メタデータ) (2024-07-04T12:33:56Z) - BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z) - Revisiting Unnaturalness for Automated Program Repair in the Era of Large Language Models [9.454475517867817]
本研究では,テンプレートベースの補修技術の効率化を目的としたパッチ自然度測定,エントロピーデルタを提案する。
提案手法は,最先端の機械学習ツールよりも効果的に正パッチをランク付けできる。
論文 参考訳(メタデータ) (2024-04-23T17:12:45Z) - GRATH: Gradual Self-Truthifying for Large Language Models [63.502835648056305]
GRATH(Gradual Self-Truthifying)は,大規模言語モデル(LLM)の真偽性を高めるためのポストプロセッシング手法である。
GRATHは、反復的に真理データを洗練し、モデルを更新する。
GRATHはTruthfulQAの最先端性能を達成し、MC1の精度は54.71%、MC2の精度は69.10%であり、70B-LLMよりも高い。
論文 参考訳(メタデータ) (2024-01-22T19:00:08Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。
オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。
予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文 参考訳(メタデータ) (2023-11-15T14:41:57Z) - An Empirical Evaluation of Using Large Language Models for Automated
Unit Test Generation [3.9762912548964864]
本稿では,自動単体テスト生成における大規模言語モデルの有効性について,大規模な実証評価を行った。
これはJavaScript用のテスト生成ツールで、npmパッケージ内のすべてのAPI関数のユニットテストを自動的に生成します。
TestPilotの生成されたテストの92.8%は、既存のテストと50%以上の類似性を持っていない。
論文 参考訳(メタデータ) (2023-02-13T17:13:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。