論文の概要: UCAgent: An End-to-End Agent for Block-Level Functional Verification
- arxiv url: http://arxiv.org/abs/2603.25768v1
- Date: Thu, 26 Mar 2026 07:21:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.199772
- Title: UCAgent: An End-to-End Agent for Block-Level Functional Verification
- Title(参考訳): UCAgent: ブロックレベル機能検証のためのエンドツーエンドエージェント
- Authors: Junyue Wang, Zhicheng Yao, Yan Pi, Xiaolong Li, Fangyuan Song, Jinru Wang, Yunlong Xie, Sa Wang, Yungang Bao,
- Abstract要約: 制約ランダムや形式的検証を含む従来の手法は、現代の半導体設計の複雑さの増大に追随する。
大規模言語モデル(Ms)の最近の進歩は、コード生成とタスク自動化の約束を示している。
本稿では,コア機構上のハードウェアブロックレベルの機能検証を自動化するエンドエージェントであるUPAgentを提案する。
- 参考スコア(独自算出の注目度): 6.457681841963143
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Functional verification remains a critical bottleneck in modern IC development cycles, accounting for approximately 70% of total development time in many projects. However, traditional methods, including constrained-random and formal verification, struggle to keep pace with the growing complexity of modern semiconductor designs. While recent advances in Large Language Models (LLMs) have shown promise in code generation and task automation, significant challenges hinder the realization of end-to-end functional verification automation. These challenges include (i) limited accuracy in generating Verilog/SystemVerilog verification code, (ii) the fragility of LLMs when executing complex, multi-step verification workflows, and (iii) the difficulty of maintaining verification consistency across specifications, coverage models, and test cases throughout the workflow. To address these challenges, we propose UCAgent, an end-to-end agent that automates hardware block-level functional verification based on three core mechanisms. First, we establish a pure Python verification environment using Picker and Toffee to avoid relying on LLM-generated SystemVerilog verification code. Second, we introduce a configurable 31-stage fine-grained verification workflow to guide the LLM, where each stage is verified by an automated checker. Furthermore, we propose a Verification Consistency Labeling Mechanism (VCLM) that assigns hierarchical labels to LLM-generated artifacts, improving the reliability and traceability of verification. Experimental results show that UCAgent can complete end-to-end automated verification on multiple modules, including the UART, FPU, and integer divider modules, achieving up to 98.5% code coverage and up to 100% functional coverage. UCAgent also discovers previously unidentified design defects in realistic designs, demonstrating its practical potential.
- Abstract(参考訳): 機能検証は現代のIC開発サイクルにおいて重要なボトルネックであり、多くのプロジェクトにおける開発時間の約70%を占めている。
しかし、制約付きランダムや形式的検証を含む従来の手法は、現代の半導体設計の複雑さの増大に追従するのに苦労している。
最近のLLM(Large Language Models)の進歩は、コード生成とタスク自動化の約束を示しているが、重要な課題は、エンドツーエンドの機能検証自動化の実現を妨げている。
これらの課題には
(i)Verilog/SystemVerilog検証コードを生成する際の制限された精度。
(二)複雑多段階検証ワークフローの実行時のLCMの脆弱性、及び
3) ワークフロー全体にわたって仕様、カバレッジモデル、テストケース間の検証整合性を維持することの難しさ。
これらの課題に対処するために,ハードウェアブロックレベルの機能検証を3つのコア機構に基づいて自動化するエンドツーエンドエージェントであるUCAgentを提案する。
まず,LLM生成のSystemVerilog検証コードに依存することを避けるため,Picker と Toffee を用いた純Python検証環境を構築した。
第2に、自動チェッカーによって各ステージが検証されるLSMをガイドするために、設定可能な31ステージのきめ細かい検証ワークフローを導入する。
さらに,LLM生成物に階層ラベルを割り当てる検証一貫性ラベル機構(VCLM)を提案し,検証の信頼性とトレーサビリティを向上させる。
実験の結果、UCAgentはUART、FPU、整数分割モジュールを含む複数のモジュールでエンドツーエンドの自動検証を完了し、98.5%のコードカバレッジと100%の機能カバレッジを達成することができた。
UCAgentはまた、現実的なデザインの未確認設計の欠陥を発見し、その実用可能性を示した。
関連論文リスト
- TopoPilot: Reliable Conversational Workflow Automation for Topological Data Analysis and Visualization [4.62716665682001]
TopoPilotは、複雑な科学的視覚化を自動化するための信頼性が高くエージェント的なフレームワークである。
TopoPilotは、信頼性の高い運用を保証するために、系統的なガードレールと検証メカニズムを組み込んでいる。
評価では、TopoPilotは99%以上の成功率を達成したが、ベースラインでは50%以下で、包括的なガードレールやチェックがない。
論文 参考訳(メタデータ) (2026-03-26T05:56:53Z) - Veri-Sure: A Contract-Aware Multi-Agent Framework with Temporal Tracing and Formal Verification for Correct RTL Code Generation [4.723302382132762]
シリコングレードの正しさは、 (i) シミュレーション中心の評価の限られたカバレッジと信頼性、 (ii) 回帰と修復幻覚、 (iii) エージェントハンドオフ間で意図が再解釈される意味的ドリフトによってボトルネックが残っている。
エージェントの意図を整合させる設計契約を確立するマルチエージェントフレームワークであるVeri-Sureを提案する。
論文 参考訳(メタデータ) (2026-01-27T16:10:23Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - A Multi-Agent Generative AI Framework for IC Module-Level Verification Automation [5.6001391902185205]
生成AIによるチップ設計は、学術や産業から広く注目を集めている。
本稿では、複雑な検証タスクにおける現在の単一LLMアプローチの限界に対処することを目的とした、革新的なマルチエージェント検証フレームワーク(MAVF)を提案する。
その結果、MAVFは検証文書解析・生成において従来の手作業法や単対話生成AIアプローチよりも優れており、自動テストベンチ生成も優れていることがわかった。
論文 参考訳(メタデータ) (2025-07-29T11:17:47Z) - SV-LLM: An Agentic Approach for SoC Security Verification using Large Language Models [8.912091484067508]
SV-LLMは,システムオンチップ(SoC)セキュリティ検証の自動化と強化を目的とした,新しいマルチエージェントアシスタントシステムである。
検証質問応答、セキュリティ資産の識別、脅威モデリング、テスト計画とプロパティ生成、脆弱性検出、シミュレーションベースのバグ検証といったタスクのための特別なエージェントを統合することで、SV-LLMはワークフローを合理化する。
このシステムは,手作業による介入を減らすこと,精度の向上,セキュリティ分析の高速化,設計サイクルの初期段階におけるリスクの積極的な識別と緩和を支援することを目的としている。
論文 参考訳(メタデータ) (2025-06-25T13:31:13Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection [56.66677293607114]
オープンセットのリアクティブかつアクティブな障害検出のためのCode-as-Monitor(CaM)を提案する。
モニタリングの精度と効率を高めるために,制約関連エンティティを抽象化する制約要素を導入する。
実験により、CaMは28.7%高い成功率を達成し、厳しい乱れの下で実行時間を31.8%短縮することが示された。
論文 参考訳(メタデータ) (2024-12-05T18:58:27Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - AIvril: AI-Driven RTL Generation With Verification In-The-Loop [0.7831852829409273]
LLM(Large Language Models)は、複雑な自然言語処理タスクを実行できる計算モデルである。
本稿では,RTL対応LLMの精度と信頼性を高めるためのフレームワークであるAIvrilを紹介する。
論文 参考訳(メタデータ) (2024-09-03T15:07:11Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。