Fugu-MT 論文翻訳(概要): LLM4DV: Using Large Language Models for Hardware Test Stimuli Generation

論文の概要: LLM4DV: Using Large Language Models for Hardware Test Stimuli Generation

arxiv url: http://arxiv.org/abs/2310.04535v2
Date: Tue, 25 Mar 2025 16:32:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-27 02:13:56.143497
Title: LLM4DV: Using Large Language Models for Hardware Test Stimuli Generation
Title（参考訳）: LLM4DV:大規模言語モデルを用いたハードウェアテスト刺激生成
Authors: Zixi Zhang, Balint Szekely, Pedro Gimenes, Greg Chadwick, Hugo McNally, Jianyi Cheng, Robert Mullins, Yiren Zhao,
Abstract要約: ハードウェアデザイン検証(ハードウェアデザイン検証、英: hardware design verification、DV)は、ハードウェア設計の仕様に対する機能的等価性をチェックするプロセスである。 DVプロセスにおける重要なタスクは、テスト刺激生成であり、テストのための一連の条件や入力を生成する。自動ハードウェアテスト刺激発生のためのLCMを効率的にオーケストレーションするLLM4DVというオープンソースのベンチマークフレームワークを提案する。
参考スコア（独自算出の注目度）: 4.9931630484957585
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Hardware design verification (DV) is a process that checks the functional equivalence of a hardware design against its specifications, improving hardware reliability and robustness. A key task in the DV process is the test stimuli generation, which creates a set of conditions or inputs for testing. These test conditions are often complex and specific to the given hardware design, requiring substantial human engineering effort to optimize. We seek a solution of automated and efficient testing for arbitrary hardware designs that takes advantage of large language models (LLMs). LLMs have already shown promising results for improving hardware design automation, but remain under-explored for hardware DV. In this paper, we propose an open-source benchmarking framework named LLM4DV that efficiently orchestrates LLMs for automated hardware test stimuli generation. Our analysis evaluates six different LLMs involving six prompting improvements over eight hardware designs and provides insight for future work on LLMs development for efficient automated DV.
Abstract（参考訳）: ハードウェア設計検証 (DV) は、ハードウェア設計の仕様に対する機能的等価性をチェックし、ハードウェアの信頼性と堅牢性を改善するプロセスである。 DVプロセスにおける重要なタスクは、テスト刺激生成であり、テストのための一連の条件や入力を生成する。これらのテスト条件は、しばしば複雑で特定のハードウェア設計に特有であり、最適化には人間工学的な努力が必要である。大規模言語モデル(LLM)を利用した任意のハードウェア設計の自動化と効率的なテストのソリューションを模索する。 LLMはすでにハードウェア設計の自動化の改善に有望な結果を示しているが、ハードウェアDVについては未検討のままである。本稿では,自動ハードウェアテスト刺激発生のためのLCMを効率的にオーケストレーションするLLM4DVというオープンソースのベンチマークフレームワークを提案する。本分析では,8つのハードウェア設計に対して6つの改良点を含む6つのLCMを評価し,高速DVのためのLCM開発に向けた今後の取り組みについて考察する。

関連論文リスト

The Potential of LLMs in Automating Software Testing: From Generation to Reporting [0.0]
手動テストは効果的だが、時間とコストがかかり、自動化メソッドの需要が増大する。大規模言語モデル(LLM)の最近の進歩は、ソフトウェア工学に大きな影響を与えている。本稿では,人間の介入を減らし,テスト効率を向上させるため,LSMを用いた自動ソフトウェアテストに対するエージェント指向アプローチについて検討する。
論文参考訳（メタデータ） (2024-12-31T02:06:46Z)
HiVeGen -- Hierarchical LLM-based Verilog Generation for Scalable Chip Design [55.54477725000291]
HiVeGenは階層的なVerilog生成フレームワークで、生成タスクを階層的なサブモジュールに分解する。自動設計空間探索(DSE)を階層対応のプロンプト生成に変換し、コードの再利用を強化するために重みに基づく検索を導入する。エラー補正コストを低減し、生成した設計の質を大幅に向上させる。
論文参考訳（メタデータ） (2024-12-06T19:37:53Z)
DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。 DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文参考訳（メタデータ） (2024-11-04T18:26:08Z)
FVEval: Understanding Language Model Capabilities in Formal Verification of Digital Hardware [4.480157114854711]
FVEvalは,形式的検証(FV)に関わるタスクにおいて,大規模言語モデル(LLM)のパフォーマンスを特徴付ける最初の総合ベンチマークである。ベンチマークは3つのサブタスクで構成され、異なるレベルでLLM能力を測定する。本稿では,FVに整合した合成例を生成するための,専門家による検証手法と手法のコレクションについて述べる。
論文参考訳（メタデータ） (2024-10-15T21:48:57Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
Making Text Embedders Few-Shot Learners [33.50993377494602]
本稿では,高品質なテキスト埋め込みを実現するために,少数の例を用いた新しいモデルbge-en-iclを提案する。提案手法では,タスク関連例をクエリ側に直接統合することで,タスク間の大幅な改善を実現している。 MTEBおよびAIR-Benchベンチマークによる実験結果から,本手法がSOTA(State-of-the-art)性能を新たに設定することを示す。
論文参考訳（メタデータ） (2024-09-24T03:30:19Z)
MILE: A Mutation Testing Framework of In-Context Learning Systems [5.419884861365132]
ICLシステムにおけるテストデータの品質と有効性を特徴付けるための突然変異試験フレームワークを提案する。まず、ICLの実証に特化しているいくつかの突然変異演算子と、ICLテストセットに対応する突然変異スコアを提案する。総合的な実験により、ICLテストスイートの信頼性と品質を評価する上で、我々のフレームワークの有効性を示す。
論文参考訳（メタデータ） (2024-09-07T13:51:42Z)
Improving Retrieval Augmented Language Model with Self-Reasoning [20.715106330314605]
本稿では,ALMの信頼性とトレーサビリティ向上を目的とした,新たな自己推論フレームワークを提案する。このフレームワークは、関連性を認識したプロセス、エビデンスを認識した選択プロセス、軌跡解析プロセスの3つのプロセスで自己推論軌道を構築することを含む。提案手法の優位性を示すため,4つの公開データセットにまたがるフレームワークの評価を行った。
論文参考訳（メタデータ） (2024-07-29T09:05:10Z)
On the Evaluation of Large Language Models in Unit Test Generation [16.447000441006814]
単体テストは、ソフトウェアコンポーネントの正しさを検証するために、ソフトウェア開発において不可欠な活動である。 LLM(Large Language Models)の出現は、ユニットテスト生成を自動化するための新しい方向性を提供する。
論文参考訳（メタデータ） (2024-06-26T08:57:03Z)
Automatic benchmarking of large multimodal models via iterative experiment programming [71.78089106671581]
本稿では,LMMの自動ベンチマークのための最初のフレームワークであるAPExを紹介する。自然言語で表現された研究の質問に対して、APExは大きな言語モデル(LLM)と事前定義されたツールのライブラリを活用して、手元にあるモデルの一連の実験を生成する。調査の現在の状況に基づいて、APExはどの実験を行うか、結果が結論を引き出すのに十分かどうかを選択する。
論文参考訳（メタデータ） (2024-06-18T06:43:46Z)
VerilogReader: LLM-Aided Hardware Test Generation [5.012023213660125]
高度な理解と推論機能を備えた大規模言語モデル(LLM)は、新しいアプローチを導入している。本研究では,LCMをCDG(Coverage Directed Test Generation)プロセスに統合する方法について検討する。私たちは、自設計のVerilogベンチマークスイートを使用して、ランダムなテストとフレームワークを比較します。
論文参考訳（メタデータ） (2024-06-03T07:20:51Z)
Evaluating LLMs for Hardware Design and Test [25.412044293834715]
大規模言語モデル(LLM)は、ハードウェア記述言語(HDL)でコードを生成する能力を実証した。機能的および検証目的でVerilogを生成する際に,最先端の会話型LLMの機能と限界について検討する。
論文参考訳（メタデータ） (2024-04-23T18:55:49Z)
Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。 DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。 GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文参考訳（メタデータ） (2024-03-13T15:13:44Z)
PPTC-R benchmark: Towards Evaluating the Robustness of Large Language Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。 GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文参考訳（メタデータ） (2024-03-06T15:33:32Z)
Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文参考訳（メタデータ） (2024-02-18T03:40:06Z)
LLM4SecHW: Leveraging Domain Specific Large Language Model for Hardware Debugging [4.297043877989406]
本稿では,ドメイン固有大言語モデル(LLM)を利用したハードウェアデバッグのための新しいフレームワークを提案する。我々は、オープンソースのハードウェア設計欠陥のデータセットとその修正手順をコンパイルするためのユニークなアプローチを提案する。 LLM4SecHWは、このデータセットに基づいて中規模のLCMを微調整し、ハードウェア設計におけるバグの特定と修正を可能にする。
論文参考訳（メタデータ） (2024-01-28T19:45:25Z)
TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。 LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文参考訳（メタデータ） (2024-01-24T04:28:50Z)
Selene: Pioneering Automated Proof in Software Verification [62.09555413263788]
実世界の産業レベルのマイクロカーネルであるseL4をベースとした,最初のプロジェクトレベルの自動証明ベンチマークであるSeleneを紹介する。 GPT-3.5-turbo や GPT-4 のような先進的な大規模言語モデル (LLM) による実験結果から, 自動証明生成領域における LLM の機能を強調した。
論文参考訳（メタデータ） (2024-01-15T13:08:38Z)
An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models [55.01592097059969]
命令データセットの監視された微調整は、目覚ましいゼロショットの一般化能力を達成する上で重要な役割を担っている。アクティブラーニングは、未ラベルのプールからアノテートするサンプルの有用なサブセットを特定するのに効果的である。本研究では,能動学習の計算ボトルネックを回避するための実験設計を提案する。
論文参考訳（メタデータ） (2024-01-12T16:56:54Z)
CRAFT: Customizing LLMs by Creating and Retrieving from Specialized Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文参考訳（メタデータ） (2023-09-29T17:40:26Z)
Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data? [49.688233418425995]
Struc-Benchは、大きな言語モデル(LLM)を特徴とする包括的なベンチマークである。 Pスコア(Prompting Score)とHスコア(Heuristical Score)の2つの革新的な指標を提案する。実験の結果,LLaMA-7Bに構造認識の微調整を適用すると,性能が大幅に向上することがわかった。
論文参考訳（メタデータ） (2023-09-16T11:31:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。