論文の概要: PRO-V: An Efficient Program Generation Multi-Agent System for Automatic RTL Verification
- arxiv url: http://arxiv.org/abs/2506.12200v1
- Date: Fri, 13 Jun 2025 20:06:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:45.399953
- Title: PRO-V: An Efficient Program Generation Multi-Agent System for Automatic RTL Verification
- Title(参考訳): PRO-V:RTL自動検証のための効率的なプログラム生成マルチエージェントシステム
- Authors: Yujie Zhao, Zhijing Wu, Hejia Zhang, Zhongming Yu, Wentao Ni, Chia-Tung Ho, Haoxing Ren, Jishen Zhao,
- Abstract要約: Pro-Vは、堅牢なRTL検証のためのプログラム生成マルチエージェントシステムである。
生成したテストベンチの正しさを高めるため、効率的なn個の反復サンプリング戦略が組み込まれている。
Pro-Vは、黄金のRTL実装では87.17%、RTL変異では76.28%の精度で検証されている。
- 参考スコア(独自算出の注目度): 6.983135183126461
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-assisted hardware verification is gaining substantial attention due to its potential to significantly reduce the cost and effort of crafting effective testbenches. It also serves as a critical enabler for LLM-aided end-to-end hardware language design. However, existing current LLMs often struggle with Register Transfer Level (RTL) code generation, resulting in testbenches that exhibit functional errors in Hardware Description Languages (HDL) logic. Motivated by the strong performance of LLMs in Python code generation under inference-time sampling strategies, and their promising capabilities as judge agents, we propose PRO-V a fully program generation multi-agent system for robust RTL verification. Pro-V incorporates an efficient best-of-n iterative sampling strategy to enhance the correctness of generated testbenches. Moreover, it introduces an LLM-as-a-judge aid validation framework featuring an automated prompt generation pipeline. By converting rule-based static analysis from the compiler into natural language through in-context learning, this pipeline enables LLMs to assist the compiler in determining whether verification failures stem from errors in the RTL design or the testbench. PRO-V attains a verification accuracy of 87.17% on golden RTL implementations and 76.28% on RTL mutants. Our code is open-sourced at https://github.com/stable-lab/Pro-V.
- Abstract(参考訳): LLMによるハードウェア検証は、効率的なテストベンチ作成のコストと労力を大幅に削減する可能性から、大きな注目を集めている。
また、LLMが支援するエンドツーエンドのハードウェア言語設計のための重要なイネーブラーとしても機能する。
しかし、現在のLLMはレジスタ転送レベル (RTL) のコード生成にしばしば苦労しており、ハードウェア記述言語 (HDL) ロジックの関数エラーを示すテストベンチが生じる。
推論時サンプリング戦略下でのPythonコード生成におけるLLMの強みと判定エージェントとしての有望な能力により,PRO-Vは堅牢なRTL検証のためのプログラム生成マルチエージェントシステムである。
Pro-Vは、生成したテストベンチの正しさを高めるために、効率的なn個の反復サンプリング戦略を取り入れている。
さらに、自動プロンプト生成パイプラインを備えたLCM-as-a-judge援助検証フレームワークも導入されている。
このパイプラインは、ルールベースの静的解析を、コンテキスト内学習を通じてコンパイラから自然言語に変換することで、RTL設計のエラーやテストベンチのエラーに起因する検証失敗を判断する上で、LLMがコンパイラを支援することを可能にする。
PRO-Vは、黄金のRTL実装では87.17%、RTL変異では76.28%の精度で検証されている。
私たちのコードはhttps://github.com/stable-lab/Pro-V.comでオープンソース化されています。
関連論文リスト
- Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - TuRTLe: A Unified Evaluation of LLMs for RTL Generation [0.6010802600885173]
本研究では,主要なRTL生成タスク間でLLMを評価するための統合評価フレームワークTuRTLeを提案する。
オープンLLMの多様なセットをベンチマークし、EDA固有のタスクの長所と短所を分析します。
以上の結果から,DeepSeek R1のような推論モデルの方が,複数の評価基準で常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-03-31T07:43:12Z) - Real-time Verification and Refinement of Language Model Text Generation [60.04718679054704]
大規模言語モデル(LLM)は、幅広い自然言語タスクにおいて顕著な性能を示している。
重要な課題は、時に事実的に誤った答えを生じさせることである。
本稿では,LLM出力の検証と改善の効率化を目的とした新しい手法であるStreaming-VRを提案する。
論文 参考訳(メタデータ) (2025-01-14T03:59:48Z) - RTLSquad: Multi-Agent Based Interpretable RTL Design [3.1734541757969463]
LLM(Large Language Models)は、RTLコードの自動生成と最適化のための新しいアプローチを提供する。
そこで我々は,RTLSquadを提案する。RTLSquadは,RTLコード生成を解釈可能な新しいLLMベースマルチエージェントシステムである。
論文 参考訳(メタデータ) (2025-01-06T02:57:54Z) - EDA-Aware RTL Generation with Large Language Models [0.7831852829409273]
LLM(Large Language Models)は、RTLコードを生成するために人気が高まっている。
ゼロショット設定でエラーのないRTLコードを生成することは、最先端のLLMでも非常に難しい。
本稿では,構文と機能的エラーの反復的修正によるRTLコード生成の高速化を目的とした,自己検証型LLM非依存型エージェントフレームワークであるAIvril2を紹介する。
論文 参考訳(メタデータ) (2024-11-21T00:37:51Z) - AIvril: AI-Driven RTL Generation With Verification In-The-Loop [0.7831852829409273]
LLM(Large Language Models)は、複雑な自然言語処理タスクを実行できる計算モデルである。
本稿では,RTL対応LLMの精度と信頼性を高めるためのフレームワークであるAIvrilを紹介する。
論文 参考訳(メタデータ) (2024-09-03T15:07:11Z) - MEIC: Re-thinking RTL Debug Automation using LLMs [18.964523115622928]
本研究は,新しいフレームワーク,Make each Iteration Count(MEIC)を紹介する。
MEICは、構文と関数のエラーを識別し、修正するのに適している。
フレームワークを評価するため、178の共通RTLプログラミングエラーからなるオープンソースデータセットを提供する。
論文 参考訳(メタデータ) (2024-05-10T22:32:39Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。