論文の概要: LLM4DV: Using Large Language Models for Hardware Test Stimuli Generation
- arxiv url: http://arxiv.org/abs/2310.04535v1
- Date: Fri, 6 Oct 2023 19:02:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 17:49:17.884006
- Title: LLM4DV: Using Large Language Models for Hardware Test Stimuli Generation
- Title(参考訳): LLM4DV:大規模言語モデルを用いたハードウェアテスト刺激生成
- Authors: Zixi Zhang, Greg Chadwick, Hugo McNally, Yiren Zhao, Robert Mullins
- Abstract要約: 本稿では,大規模言語モデル(LLM)からテスト刺激を抽出するための新しいベンチマークフレームワークを提案する。
LLM4DVと従来の制約ランダムテスト(CRT)を3つのDUTモジュールを用いて比較する。
LLM4DVは、基本的な数学的推論と事前学習された知識を活用する能力を利用して、単純なDUTシナリオを効率的に処理できることを実証した。
- 参考スコア(独自算出の注目度): 5.905138464855556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test stimuli generation has been a crucial but labor-intensive task in
hardware design verification. In this paper, we revolutionize this process by
harnessing the power of large language models (LLMs) and present a novel
benchmarking framework, LLM4DV. This framework introduces a prompt template for
interactively eliciting test stimuli from the LLM, along with four innovative
prompting improvements to support the pipeline execution and further enhance
its performance. We compare LLM4DV to traditional constrained-random testing
(CRT), using three self-designed design-under-test (DUT) modules. Experiments
demonstrate that LLM4DV excels in efficiently handling straightforward DUT
scenarios, leveraging its ability to employ basic mathematical reasoning and
pre-trained knowledge. While it exhibits reduced efficiency in complex task
settings, it still outperforms CRT in relative terms. The proposed framework
and the DUT modules used in our experiments will be open-sourced upon
publication.
- Abstract(参考訳): テスト刺激生成は、ハードウェア設計の検証において重要だが労働集約的なタスクである。
本稿では,大規模言語モデル(LLM)のパワーを活用し,新しいベンチマークフレームワーク LLM4DV を提案する。
このフレームワークは、LLMからテスト刺激をインタラクティブに引き出すプロンプトテンプレートを導入し、パイプライン実行をサポートし、そのパフォーマンスをさらに向上する4つの革新的なプロンプト改善を導入した。
LLM4DVと従来の制約ランダムテスト(CRT)を3つのDUTモジュールを用いて比較する。
LLM4DVは、基本的な数学的推論と事前学習された知識を活用する能力を利用して、単純なDUTシナリオを効率的に扱うことができる。
複雑なタスク設定では効率が低下するが、それでも相対的にCRTを上回っている。
本実験で使用したフレームワークとDUTモジュールは,公開時にオープンソース化される。
関連論文リスト
- Test-Time Training on Graphs with Large Language Models (LLMs) [68.375487369596]
グラフニューラルネットワーク(GNN)をトレーニングするための有望なアプローチとして,TTT(Test-Time Training)が提案されている。
テキスト分散グラフ(TAG)上でのLLM(Large Language Models)の優れたアノテーション能力に着想を得て,LLMをアノテータとしてグラフ上でのテスト時間トレーニングを強化することを提案する。
2段階のトレーニング戦略は、限定的でノイズの多いラベルでテストタイムモデルを調整するように設計されている。
論文 参考訳(メタデータ) (2024-04-21T08:20:02Z) - Large Language Models as Test Case Generators: Performance Evaluation and Enhancement [3.5398126682962587]
大規模言語モデルが高品質なテストケースをいかに生み出すかを検討する。
本稿では,テストインプットとテストアウトプットの生成を分離するemphTestChainというマルチエージェントフレームワークを提案する。
以上の結果から,TestChainはベースラインのマージンを大きく上回っていることが示唆された。
論文 参考訳(メタデータ) (2024-04-20T10:27:01Z) - Large Language Models to Generate System-Level Test Programs Targeting Non-functional Properties [3.3305233186101226]
本稿では,テストプログラムを生成するためのLarge Language Models (LLM)を提案する。
我々は、DUTの非機能特性を最適化するために、事前訓練されたLLMがテストプログラム生成でどのように機能するかを、一目で見てみる。
論文 参考訳(メタデータ) (2024-03-15T08:01:02Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z) - Code-Aware Prompting: A study of Coverage Guided Test Generation in Regression Setting using LLM [32.44432906540792]
テスト生成における大規模言語モデルのコード認識促進戦略であるSymPromptを提案する。
SymPromptは、正しいテスト世代を5倍に増やし、CodeGen2の相対カバレッジを26%向上させる。
特に、GPT-4に適用すると、SymPromptはベースラインのプロンプト戦略に比べて2倍以上のカバレッジが向上する。
論文 参考訳(メタデータ) (2024-01-31T18:21:49Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over
Tabular and Textual Data [77.66158066013924]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models [55.01592097059969]
命令データセットの監視された微調整は、目覚ましいゼロショットの一般化能力を達成する上で重要な役割を担っている。
アクティブラーニングは、未ラベルのプールからアノテートするサンプルの有用なサブセットを特定するのに効果的である。
本研究では,能動学習の計算ボトルネックを回避するための実験設計を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:56:54Z) - L3 Ensembles: Lifelong Learning Approach for Ensemble of Foundational
Language Models [15.726224465017596]
本稿では、未知のデータから意味のある表現を抽出し、構造化知識ベースを構築することに焦点を当てたアプローチを提案する。
我々は,GLUE や SuperGLUE などのベンチマークを含む様々な NLP タスクの有効性を検証する実験を行った。
提案したL3アンサンブル法は、細調整されたFLMと比較してモデル精度を4%36%向上させる。
論文 参考訳(メタデータ) (2023-11-11T06:59:50Z) - Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data? [49.688233418425995]
Struc-Benchは、大きな言語モデル(LLM)を特徴とする包括的なベンチマークである。
Pスコア(Prompting Score)とHスコア(Heuristical Score)の2つの革新的な指標を提案する。
実験の結果,LLaMA-7Bに構造認識の微調整を適用すると,性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-09-16T11:31:58Z) - Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。
このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文 参考訳(メタデータ) (2023-05-24T01:46:07Z) - Aligning Instruction Tasks Unlocks Large Language Models as Zero-Shot
Relation Extractors [11.28397947587596]
大規模命令追従データセット上での細調整大型言語モデル(LLM)は、幅広いNLPタスクの性能を大幅に向上させる。
しかし、先進的な命令調整 LLM でさえ、関係抽出(RE)において小さな LM を上回りません。
本稿では,REを質問応答(QA)と整合させるフレームワークであるQA4REを提案する。
論文 参考訳(メタデータ) (2023-05-18T17:48:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。