論文の概要: DUET: Agentic Design Understanding via Experimentation and Testing
- arxiv url: http://arxiv.org/abs/2512.06247v1
- Date: Sat, 06 Dec 2025 02:16:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.259465
- Title: DUET: Agentic Design Understanding via Experimentation and Testing
- Title(参考訳): DUET:実験とテストによるエージェント設計理解
- Authors: Gus Henry Smith, Sandesh Adhikary, Vineet Thumuluri, Karthik Suresh, Vivek Pandit, Kartik Hegde, Hamid Shojaei, Chandra Bhagavatula,
- Abstract要約: DUETは、実験とテストによる設計理解を開発するための一般的な方法論である。
仮説を反復的に生成し、EDAツールでテストし、結果を統合して、設計のボトムアップ理解を構築する。
DUETは,実験なしでのベースラインフローと比較して,形式的検証においてAIエージェントの性能を向上させることを示す。
- 参考スコア(独自算出の注目度): 6.787641711048685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents powered by large language models (LLMs) are being used to solve increasingly complex software engineering challenges, but struggle with hardware design tasks. Register Transfer Level (RTL) code presents a unique challenge for LLMs, as it encodes complex, dynamic, time-evolving behaviors using the low-level language features of SystemVerilog. LLMs struggle to infer these complex behaviors from the syntax of RTL alone, which limits their ability to complete all downstream tasks like code completion, documentation, or verification. In response to this issue, we present DUET: a general methodology for developing Design Understanding via Experimentation and Testing. DUET mimics how hardware design experts develop an understanding of complex designs: not just via a one-off readthrough of the RTL, but via iterative experimentation using a number of tools. DUET iteratively generates hypotheses, tests them with EDA tools (e.g., simulation, waveform inspection, and formal verification), and integrates the results to build a bottom-up understanding of the design. In our evaluations, we show that DUET improves AI agent performance on formal verification, when compared to a baseline flow without experimentation.
- Abstract(参考訳): 大規模言語モデル(LLM)を利用したAIエージェントは、ますます複雑なソフトウェアエンジニアリングの課題を解決するために使用されているが、ハードウェア設計タスクに苦労している。
レジスタ転送レベル(RTL)コードは、SystemVerilogの低レベル言語機能を使用して、複雑で動的、時間進化的な振る舞いをエンコードするので、LLMにとってユニークな課題である。
LLMは、RTLの構文だけでこれらの複雑な振る舞いを推測するのに苦労している。
この問題に対して我々は,実験とテストによる設計理解開発のための一般的な方法論であるDUETを提案する。
DUETは、ハードウェア設計の専門家が複雑な設計を理解する方法を模倣している。
DUETは仮説を反復的に生成し、EDAツール(シミュレーション、波形検査、形式検証など)でテストし、結果を統合して設計のボトムアップ理解を構築する。
本評価では,実験を伴わないベースラインフローと比較して,AIエージェントの性能をフォーマルな検証で向上することを示す。
関連論文リスト
- Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.83217247686402]
大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。
その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。
本稿では,LLMアプリケーションを3層アーキテクチャに分解する: textbftextitSystem Shell Layer, textbftextitPrompt Orchestration Layer, textbftextitLLM Inference Core。
論文 参考訳(メタデータ) (2025-08-28T13:00:28Z) - Analyzing Prominent LLMs: An Empirical Study of Performance and Complexity in Solving LeetCode Problems [0.0]
ChatGPT、Copilot、Gemini、DeepSeekといった大規模言語モデル(LLM)は、重要なタスクを自動化することで、ソフトウェアエンジニアリングを変革しています。
この研究は、容易、中、難易度にまたがる100と50のLeetCode問題に対して、これらの4つの著名なLLMをベンチマークする。
我々は,実行時間,メモリ使用量,アルゴリズムの複雑さに基づいて各モデルを評価する。
論文 参考訳(メタデータ) (2025-08-05T21:50:52Z) - VeriMind: Agentic LLM for Automated Verilog Generation with a Novel Evaluation Metric [4.590930025882158]
We propose VeriMind, a agentic LLM framework for Verilog code generation。
本稿では,従来のpass@k測度とARC(Average Refinement Cycles)を組み合わせた新しい評価手法を提案する。
様々なハードウェア設計タスクの実験結果によると、我々のアプローチはpass@kメトリックで最大8.3%、pass@ARCメトリックで最大8.1%向上した。
論文 参考訳(メタデータ) (2025-03-15T23:43:06Z) - VerilogReader: LLM-Aided Hardware Test Generation [5.012023213660125]
高度な理解と推論機能を備えた大規模言語モデル(LLM)は、新しいアプローチを導入している。
本研究では,LCMをCDG(Coverage Directed Test Generation)プロセスに統合する方法について検討する。
私たちは、自設計のVerilogベンチマークスイートを使用して、ランダムなテストとフレームワークを比較します。
論文 参考訳(メタデータ) (2024-06-03T07:20:51Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z) - When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。
具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。
コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文 参考訳(メタデータ) (2023-08-29T17:22:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。