論文の概要: AutoBench: Automatic Testbench Generation and Evaluation Using LLMs for HDL Design
- arxiv url: http://arxiv.org/abs/2407.03891v2
- Date: Tue, 20 Aug 2024 09:19:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 19:15:20.139747
- Title: AutoBench: Automatic Testbench Generation and Evaluation Using LLMs for HDL Design
- Title(参考訳): AutoBench: HDL設計のためのLCMを用いた自動テストベンチ生成と評価
- Authors: Ruidi Qiu, Grace Li Zhang, Rolf Drechsler, Ulf Schlichtmann, Bing Li,
- Abstract要約: テストベンチはシミュレーションベースのハードウェア検証の基礎となる。
LLM(Large Language Models)は、回路設計フローの自動化の可能性を実証している。
デジタル回路設計のための最初のLCMベースのテストベンチジェネレータであるAutoBenchを紹介する。
- 参考スコア(独自算出の注目度): 6.414167153186868
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In digital circuit design, testbenches constitute the cornerstone of simulation-based hardware verification. Traditional methodologies for testbench generation during simulation-based hardware verification still remain partially manual, resulting in inefficiencies in testing various scenarios and requiring expensive time from designers. Large Language Models (LLMs) have demonstrated their potential in automating the circuit design flow. However, directly applying LLMs to generate testbenches suffers from a low pass rate. To address this challenge, we introduce AutoBench, the first LLM-based testbench generator for digital circuit design, which requires only the description of the design under test (DUT) to automatically generate comprehensive testbenches. In AutoBench, a hybrid testbench structure and a self-checking system are realized using LLMs. To validate the generated testbenches, we also introduce an automated testbench evaluation framework to evaluate the quality of generated testbenches from multiple perspectives. Experimental results demonstrate that AutoBench achieves a 57% improvement in the testbench pass@1 ratio compared with the baseline that directly generates testbenches using LLMs. For 75 sequential circuits, AutoBench successfully has a 3.36 times testbench pass@1 ratio compared with the baseline. The source codes and experimental results are open-sourced at this link: https://github.com/AutoBench/AutoBench
- Abstract(参考訳): デジタル回路設計において、テストベンチはシミュレーションベースのハードウェア検証の基礎となる。
シミュレーションベースのハードウェア検証におけるテストベンチ生成の従来の手法は、一部手作業のままであり、様々なシナリオのテストや設計者からの高価な時間を要する。
LLM(Large Language Models)は、回路設計フローの自動化の可能性を実証している。
しかし、直接LLMをテストベンチ生成に適用することは、通過率の低下に悩まされる。
この課題に対処するために,我々は,デジタル回路設計のための最初のLCMベースのテストベンチジェネレータであるAutoBenchを紹介した。
AutoBenchでは、LLMを用いてハイブリッドテストベンチ構造と自己チェックシステムを実現する。
生成されたテストベンチを検証するために,複数の視点から生成されたテストベンチの品質を評価する自動テストベンチ評価フレームワークも導入した。
実験の結果, AutoBenchは, LLMを用いて直接テストベンチを生成するベースラインと比較して, testbench pass@1比が57%向上していることがわかった。
75のシーケンシャル回路では、AutoBenchはベースラインに比べて3.36倍のテストベンチパス@1比で成功した。
ソースコードと実験結果は、このリンクでオープンソース化されている。
関連論文リスト
- AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - BanditCAT and AutoIRT: Machine Learning Approaches to Computerized Adaptive Testing and Item Calibration [7.261063083251448]
本稿では,少数の応答を持つ大規模コンピュータ適応テスト(CAT)の校正と管理を行うための完全なフレームワークを提案する。
自動機械学習(AutoML)とアイテム応答理論(IRT)を組み合わせた新しい手法であるAutoIRTを使用している。
我々は、コンテキスト的バンディットフレームワークに問題をキャストし、アイテム応答理論(IRT)を利用する手法であるBanditCATフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-28T13:54:10Z) - A System for Automated Unit Test Generation Using Large Language Models and Assessment of Generated Test Suites [1.4563527353943984]
大規模言語モデル(LLM)はソフトウェア開発の様々な側面に適用されている。
Javaプロジェクトのテストスイートを生成する自動化システムであるAgoneTestを紹介します。
論文 参考訳(メタデータ) (2024-08-14T23:02:16Z) - Harnessing the Power of LLMs: Automating Unit Test Generation for High-Performance Computing [7.3166218350585135]
ユニットテストは、品質を保証するために、ソフトウェア工学において不可欠です。
並列処理や高性能計算ソフトウェア、特に科学応用では広く使われていない。
本稿では,このようなソフトウェアを対象としたユニットテストの自動生成手法を提案する。
論文 参考訳(メタデータ) (2024-07-06T22:45:55Z) - LiveBench: A Challenging, Contamination-Free LLM Benchmark [101.21578097087699]
最近の情報ソースから頻繁に更新された質問を含む最初のベンチマークであるLiveBenchをリリースする。
我々は、多くの著名なクローズドソースモデルと、0.5Bから110Bまでの数十のオープンソースモデルを評価した。
質問は毎月追加され、更新されるので、時間とともに新しいタスクとより難しいバージョンのタスクをリリースします。
論文 参考訳(メタデータ) (2024-06-27T16:47:42Z) - Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models [54.14602121129874]
トレーニングデータを自動的に生成する最初のスケーラブルで信頼性の高いAutoIFを導入する。
AutoIFは命令追従データ品質の検証をコード検証に変換する。
論文 参考訳(メタデータ) (2024-06-19T13:29:53Z) - Automatic benchmarking of large multimodal models via iterative experiment programming [71.78089106671581]
本稿では,LMMの自動ベンチマークのための最初のフレームワークであるAPExを紹介する。
自然言語で表現された研究の質問に対して、APExは大きな言語モデル(LLM)と事前定義されたツールのライブラリを活用して、手元にあるモデルの一連の実験を生成する。
調査の現在の状況に基づいて、APExはどの実験を行うか、結果が結論を引き出すのに十分かどうかを選択する。
論文 参考訳(メタデータ) (2024-06-18T06:43:46Z) - LLM-Powered Test Case Generation for Detecting Tricky Bugs [30.82169191775785]
AIDは、少なくとも正しいプログラムをターゲットにしたテスト入力とオラクルを生成する。
TrickyBugs と EvalPlus の2つの大規模データセットに対する AID の評価を行った。
その結果,AIDのリコール,精度,F1スコアは,それぞれ1.80x,2.65x,1.66xに優れていた。
論文 参考訳(メタデータ) (2024-04-16T06:20:06Z) - Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。
オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。
予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文 参考訳(メタデータ) (2023-11-15T14:41:57Z) - Test-Time Training with Masked Autoencoders [54.983147122777574]
テストタイムトレーニングは、セルフスーパービジョンを使用して各テスト入力のモデルを最適化することで、新しいテスト分布をオンザフライに適用する。
本稿では,この一サンプル学習問題に対してマスク付きオートエンコーダを用いる。
論文 参考訳(メタデータ) (2022-09-15T17:59:34Z) - SilGAN: Generating driving maneuvers for scenario-based
software-in-the-loop testing [0.0]
SilGANは、自動車用ソフトウェア・イン・ザ・ループテストの仕様、刺激発生、自動化を容易にする、深い生成モデルである。
モデルはフィールド内の車両から記録されたデータを使って訓練される。
論文 参考訳(メタデータ) (2021-07-05T07:17:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。