論文の概要: DUET: Agentic Design Understanding via Experimentation and Testing
- arxiv url: http://arxiv.org/abs/2512.06247v1
- Date: Sat, 06 Dec 2025 02:16:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.259465
- Title: DUET: Agentic Design Understanding via Experimentation and Testing
- Title(参考訳): DUET:実験とテストによるエージェント設計理解
- Authors: Gus Henry Smith, Sandesh Adhikary, Vineet Thumuluri, Karthik Suresh, Vivek Pandit, Kartik Hegde, Hamid Shojaei, Chandra Bhagavatula,
- Abstract要約: DUETは、実験とテストによる設計理解を開発するための一般的な方法論である。
仮説を反復的に生成し、EDAツールでテストし、結果を統合して、設計のボトムアップ理解を構築する。
DUETは,実験なしでのベースラインフローと比較して,形式的検証においてAIエージェントの性能を向上させることを示す。
- 参考スコア(独自算出の注目度): 6.787641711048685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents powered by large language models (LLMs) are being used to solve increasingly complex software engineering challenges, but struggle with hardware design tasks. Register Transfer Level (RTL) code presents a unique challenge for LLMs, as it encodes complex, dynamic, time-evolving behaviors using the low-level language features of SystemVerilog. LLMs struggle to infer these complex behaviors from the syntax of RTL alone, which limits their ability to complete all downstream tasks like code completion, documentation, or verification. In response to this issue, we present DUET: a general methodology for developing Design Understanding via Experimentation and Testing. DUET mimics how hardware design experts develop an understanding of complex designs: not just via a one-off readthrough of the RTL, but via iterative experimentation using a number of tools. DUET iteratively generates hypotheses, tests them with EDA tools (e.g., simulation, waveform inspection, and formal verification), and integrates the results to build a bottom-up understanding of the design. In our evaluations, we show that DUET improves AI agent performance on formal verification, when compared to a baseline flow without experimentation.
- Abstract(参考訳): 大規模言語モデル(LLM)を利用したAIエージェントは、ますます複雑なソフトウェアエンジニアリングの課題を解決するために使用されているが、ハードウェア設計タスクに苦労している。
レジスタ転送レベル(RTL)コードは、SystemVerilogの低レベル言語機能を使用して、複雑で動的、時間進化的な振る舞いをエンコードするので、LLMにとってユニークな課題である。
LLMは、RTLの構文だけでこれらの複雑な振る舞いを推測するのに苦労している。
この問題に対して我々は,実験とテストによる設計理解開発のための一般的な方法論であるDUETを提案する。
DUETは、ハードウェア設計の専門家が複雑な設計を理解する方法を模倣している。
DUETは仮説を反復的に生成し、EDAツール(シミュレーション、波形検査、形式検証など)でテストし、結果を統合して設計のボトムアップ理解を構築する。
本評価では,実験を伴わないベースラインフローと比較して,AIエージェントの性能をフォーマルな検証で向上することを示す。
関連論文リスト
- Step-Level Sparse Autoencoder for Reasoning Process Interpretation [48.99201531966593]
大規模言語モデル(LLM)は、Chain-of-Thought(CoT)推論を通じて、強力な複雑な推論機能を実現している。
本稿では,ステップレベルスパースオートエンコーダ (SSAE) を提案する。
複数の基本モデルと推論タスクの実験により,抽出した特徴の有効性が示された。
論文 参考訳(メタデータ) (2026-03-03T14:25:02Z) - Large Language Model Agent for User-friendly Chemical Process Simulations [0.0]
大規模言語モデル (LLM) エージェントは AVEVA Process Model Protocol (MCP) と統合され、自然言語のシミュレーションを可能にする。
2つのケーススタディは、異なるタスクの複雑さと相互作用モードにわたるフレームワークを評価する。
このフレームワークは、技術的な概念の翻訳と実証によって教育目的と、データ抽出の自動化、ルーチンタスクの高速化、サポートによって経験豊富な実践者の両方に役立ちます。
オーバーシンプル化、計算エラー、技術的ヒックアップといった現在の制限は専門家の監視を必要とするが、このフレームワークはLSMベースのエージェントが貴重な協力者になれることを示唆している。
論文 参考訳(メタデータ) (2026-01-15T12:18:45Z) - Understanding Specification-Driven Code Generation with LLMs: An Empirical Study Design [2.687678248171195]
大規模言語モデル(LLM)は、ますますソフトウェア開発に統合されているが、構造化された仕様駆動プロセスにおけるそれらの振る舞いは、いまだに理解されていない。
本稿では,LLM支援コード生成のためのヒューマン・イン・ザ・ループ・ワークフローを実現するVisual Studio Code拡張であるCURRANTEを用いた実証的研究設計を提案する。
本研究の目的は,LLM生成コードの品質と力学に人間による介入がどう影響するかを解析することである。
論文 参考訳(メタデータ) (2026-01-07T12:46:57Z) - From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.3696990310269]
大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。
コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。
一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
論文 参考訳(メタデータ) (2025-11-23T17:09:34Z) - Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.83217247686402]
大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。
その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。
本稿では,LLMアプリケーションを3層アーキテクチャに分解する: textbftextitSystem Shell Layer, textbftextitPrompt Orchestration Layer, textbftextitLLM Inference Core。
論文 参考訳(メタデータ) (2025-08-28T13:00:28Z) - Analyzing Prominent LLMs: An Empirical Study of Performance and Complexity in Solving LeetCode Problems [0.0]
ChatGPT、Copilot、Gemini、DeepSeekといった大規模言語モデル(LLM)は、重要なタスクを自動化することで、ソフトウェアエンジニアリングを変革しています。
この研究は、容易、中、難易度にまたがる100と50のLeetCode問題に対して、これらの4つの著名なLLMをベンチマークする。
我々は,実行時間,メモリ使用量,アルゴリズムの複雑さに基づいて各モデルを評価する。
論文 参考訳(メタデータ) (2025-08-05T21:50:52Z) - VeriMind: Agentic LLM for Automated Verilog Generation with a Novel Evaluation Metric [4.590930025882158]
We propose VeriMind, a agentic LLM framework for Verilog code generation。
本稿では,従来のpass@k測度とARC(Average Refinement Cycles)を組み合わせた新しい評価手法を提案する。
様々なハードウェア設計タスクの実験結果によると、我々のアプローチはpass@kメトリックで最大8.3%、pass@ARCメトリックで最大8.1%向上した。
論文 参考訳(メタデータ) (2025-03-15T23:43:06Z) - VerilogReader: LLM-Aided Hardware Test Generation [5.012023213660125]
高度な理解と推論機能を備えた大規模言語モデル(LLM)は、新しいアプローチを導入している。
本研究では,LCMをCDG(Coverage Directed Test Generation)プロセスに統合する方法について検討する。
私たちは、自設計のVerilogベンチマークスイートを使用して、ランダムなテストとフレームワークを比較します。
論文 参考訳(メタデータ) (2024-06-03T07:20:51Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z) - When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。
具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。
コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文 参考訳(メタデータ) (2023-08-29T17:22:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。