論文の概要: Comprehensive Verilog Design Problems: A Next-Generation Benchmark Dataset for Evaluating Large Language Models and Agents on RTL Design and Verification
- arxiv url: http://arxiv.org/abs/2506.14074v1
- Date: Tue, 17 Jun 2025 00:11:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.274621
- Title: Comprehensive Verilog Design Problems: A Next-Generation Benchmark Dataset for Evaluating Large Language Models and Agents on RTL Design and Verification
- Title(参考訳): 総合的検証設計問題: RTL設計と検証に関する大規模言語モデルとエージェントの評価のための次世代ベンチマークデータセット
- Authors: Nathaniel Pinckney, Chenhui Deng, Chia-Tung Ho, Yun-Da Tsai, Mingjie Liu, Wenfei Zhou, Brucek Khailany, Haoxing Ren,
- Abstract要約: ハードウェアと検証の研究を進めるための新しいデータセットとインフラであるComprehensive Verilog(CVDP)ベンチマークを提示する。
CVDPには、検証、デバッグ、生成、アライメント、技術的Q&Aなど、タスクカテゴリにまたがる783の問題がある。
問題は非エージェント型とエージェント型の両方で提供される。
- 参考スコア(独自算出の注目度): 6.0652877909448835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the Comprehensive Verilog Design Problems (CVDP) benchmark, a new dataset and infrastructure to advance LLM and agent research in hardware design and verification. CVDP includes 783 problems across 13 task categories, covering RTL generation, verification, debugging, specification alignment, and technical Q&A authored by experienced hardware engineers. Problems are offered in both non-agentic and agentic formats. The benchmark introduces more realistic and challenging contexts than prior work, with state-of-the-art models achieving no more than 34% pass@1 on code generation. Agentic tasks$\unicode{x2013}$especially those involving RTL reuse and verification$\unicode{x2013}$are particularly difficult. Evaluation uses open-source tools and model scoring infrastructure, with comprehension tasks assessed via BLEU and LLM-based judging. CVDP reveals substantial gaps in current model capabilities, underscoring the need for continued research toward robust, real-world hardware design automation.
- Abstract(参考訳): ハードウェア設計および検証におけるLCMとエージェント研究を進展させるための新しいデータセットとインフラである包括的検証設計問題(CVDP)ベンチマークを提示する。
CVDPには、RTL生成、検証、デバッグ、仕様のアライメント、経験豊富なハードウェアエンジニアによる技術的Q&Aを含む、13のタスクカテゴリにわたる783の問題が含まれている。
問題は非エージェント型とエージェント型の両方で提供される。
このベンチマークは、以前の作業よりも現実的で挑戦的なコンテキストを導入し、コード生成で34%のパス@1を達成した最先端のモデルである。
エージェントタスク$\unicode{x2013}$ 特にRTLの再利用と検証を含むもの$\unicode{x2013}$は特に難しい。
評価にはオープンソースのツールとモデルスコアリングインフラストラクチャを使用し、BLEUとLLMに基づく判断を通じて、理解的なタスクを評価できる。
CVDPは現在のモデル機能に大きなギャップを生じさせ、堅牢で現実世界のハードウェア設計自動化に向けた継続的な研究の必要性を浮き彫りにしている。
関連論文リスト
- Evaluating Large Language Models on Non-Code Software Engineering Tasks [4.381476817430934]
大規模言語モデル(LLM)は、コード理解と生成において顕著な能力を示している。
ソフトウェア工学言語理解(SELU)と呼ばれる最初の包括的なベンチマークを提示する。
SELUは、分類、回帰、名前付きエンティティ認識(NER)とマスケッド言語モデリング(MLM)のターゲットをカバーし、さまざまなソースからデータを引き出す。
論文 参考訳(メタデータ) (2025-06-12T15:52:32Z) - Evaluating Large Language Models for Real-World Engineering Tasks [75.97299249823972]
本稿では,実運用指向のエンジニアリングシナリオから得られた100以上の質問をキュレートしたデータベースを提案する。
このデータセットを用いて、4つの最先端の大規模言語モデル(LLM)を評価する。
以上の結果から,LLMは時間的および構造的推論において強みを示すが,抽象的推論や形式的モデリング,文脈に敏感な工学的論理にはかなり苦労することがわかった。
論文 参考訳(メタデータ) (2025-05-12T14:05:23Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models [58.45517851437422]
VsTP(Visually-situated text parsing)は、自動化された文書理解の需要が高まり、最近顕著な進歩を遂げている。
既存のソリューションは、タスク固有のアーキテクチャと個々のタスクの目的に依存していることが多い。
本稿では,テキストスポッティング,キー情報抽出,テーブル認識,レイアウト解析など,VsTPの典型的なタスクを統一する汎用モデルであるOmni V2を紹介する。
論文 参考訳(メタデータ) (2025-02-22T09:32:01Z) - MAGE: A Multi-Agent Engine for Automated RTL Code Generation [5.899673582879575]
MAGEは、堅牢で正確なVerilog RTLコード生成のために設計された、最初のオープンソースのマルチエージェントAIシステムである。
MAGE は VerilogEval-Human 2 ベンチマークで 95.7% の構文的および機能的正当性コード生成を実現している。
論文 参考訳(メタデータ) (2024-12-10T21:53:55Z) - GUI Agents with Foundation Models: A Comprehensive Survey [91.97447457550703]
この調査は(M)LLMベースのGUIエージェントに関する最近の研究を集約する。
重要な課題を特定し,今後の研究方向性を提案する。
この調査が(M)LLMベースのGUIエージェントの分野におけるさらなる進歩を促すことを願っている。
論文 参考訳(メタデータ) (2024-11-07T17:28:10Z) - Revisiting VerilogEval: A Year of Improvements in Large-Language Models for Hardware Code Generation [6.463959200930805]
オープンソースのVerilogEvalベンチマークのリリース以降,新しい商用およびオープンなモデルを評価する。
最先端のモデルでは測定可能な改善が得られます。
高いパスレートを達成するためには、迅速なエンジニアリングが不可欠であることに気付きました。
論文 参考訳(メタデータ) (2024-08-20T17:58:56Z) - DesignQA: A Multimodal Benchmark for Evaluating Large Language Models' Understanding of Engineering Documentation [3.2169312784098705]
本研究は,多モーダル大規模言語モデル(MLLM)の熟練度を評価するための新しいベンチマークであるDesignQAを紹介する。
DesignQAは、フォーミュラSAE学生コンペティションから派生したマルチモーダルデータ、テキストデザイン要件、CADイメージ、エンジニアリング図面を独自に組み合わせている。
論文 参考訳(メタデータ) (2024-04-11T16:59:54Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。