論文の概要: RTL-BenchMT: Dynamic Maintenance of RTL Generation Benchmark Through Agent-Assisted Analysis and Revision
- arxiv url: http://arxiv.org/abs/2605.15537v1
- Date: Fri, 15 May 2026 02:17:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.148757
- Title: RTL-BenchMT: Dynamic Maintenance of RTL Generation Benchmark Through Agent-Assisted Analysis and Revision
- Title(参考訳): RTL-BenchMT:エージェント支援分析と改訂によるRTL生成ベンチマークの動的メンテナンス
- Authors: Jing Wang, Shang Liu, Hangan Zhou, Zhiyao Xie,
- Abstract要約: 本稿では RTL 生成ベンチマークを動的に保守するエージェントフレームワーク RTL-BenchMT を紹介する。
欠陥のあるケースや過度に適合したケースを徹底的に分析し、コミュニティにオープンソース化されるような、洗練されたベンチマークスイートを作成します。
- 参考スコア(独自算出の注目度): 9.325513818031316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces RTL-BenchMT, an agentic framework for dynamically maintaining RTL generation benchmarks. Large Language Models (LLMs) assisted automated RTL generation is one of the most important directions in EDA research. However, current RTL benchmarks face two critical challenges: (1) flawed cases in the benchmarks and (2) overfitting to the benchmarks. Both challenges are difficult to resolve purely by manual engineering effort. To address these issues and systematically reduce human maintenance costs, we propose an automated agentic framework, RTL-BenchMT. RTL-BenchMT focuses on two key applications: (1) automatically identifying and revising flawed benchmark cases and (2) automatically detecting and updating overfitting cases. With the assistance of RTL-BenchMT, we conduct a thorough, in-depth analysis of flawed and overfitting cases and produce a refined benchmark suite that will be open-sourced to the community.
- Abstract(参考訳): 本稿では RTL 生成ベンチマークを動的に保守するエージェントフレームワーク RTL-BenchMT を紹介する。
大規模言語モデル(LLM)による自動RTL生成は、EDA研究において最も重要な方向の1つである。
しかしながら、現在のRTLベンチマークは、(1) ベンチマークの欠陥事例と(2) ベンチマークに過度に適合する2つの重要な課題に直面している。
どちらの課題も、手動のエンジニアリングによって純粋に解決することは難しい。
これらの問題に対処し、人的メンテナンスコストを体系的に削減するために、自動エージェントフレームワークRTL-BenchMTを提案する。
RTL-BenchMTは、(1)欠陥のあるベンチマークケースの自動識別と修正、(2)オーバーフィッティングケースの自動検出と更新の2つの主要な応用に焦点を当てている。
RTL-BenchMTの助けを借りて、欠陥や過度に適合するケースを徹底的に詳細に分析し、コミュニティにオープンソース化される洗練されたベンチマークスイートを作成します。
関連論文リスト
- ELT-Bench-Verified: Benchmark Quality Issues Underestimate AI Agent Capabilities [4.5258165293324515]
Extract-Load-Transformパイプラインは、労働集約的なデータエンジニアリングタスクであり、AI自動化の高インパクトターゲットである。
エンドツーエンドのETLパイプライン構築のための最初のベンチマークであるETL-Benchでは、AIエージェントが最初に成功率を低くした。
これらの結果を再検討し,エージェント能力を著しく過小評価する要因を2つ同定した。
論文 参考訳(メタデータ) (2026-03-31T08:02:16Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Assessing Large Language Models in Generating RTL Design Specifications [2.4125580419022477]
エンジニアは現在、既存のRTLコードを手動で解釈し、仕様書を書く必要がある。
提案手法がRTL-to-specificationの品質にどのように影響するかを考察し、生成した仕様を忠実に評価するための指標を導入する。
論文 参考訳(メタデータ) (2025-11-17T10:06:24Z) - InspectCoder: Dynamic Analysis-Enabled Self Repair through interactive LLM-Debugger Collaboration [71.18377595277018]
大きな言語モデル(LLM)は、診断が難しい複雑なロジックエラーを伴うバグの多いコードを生成することが多い。
対話型デバッガ制御による動的解析を LLM に委ねる初のエージェントプログラム修復システムである InspectCoder を提案する。
論文 参考訳(メタデータ) (2025-10-21T06:26:29Z) - An Agentic Framework with LLMs for Solving Complex Vehicle Routing Problems [66.60904891478687]
複雑な車両ルーティング問題を解決するために,LLM (AFL) を用いたエージェントフレームワークを提案する。
AFLは生の入力から知識を直接抽出し、自己完結型コード生成を可能にする。
AFLは、コード信頼性とソリューション実現性の両方において、既存のLCMベースのベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-10-19T03:59:25Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - MAGE: A Multi-Agent Engine for Automated RTL Code Generation [5.899673582879575]
MAGEは、堅牢で正確なVerilog RTLコード生成のために設計された、最初のオープンソースのマルチエージェントAIシステムである。
MAGE は VerilogEval-Human 2 ベンチマークで 95.7% の構文的および機能的正当性コード生成を実現している。
論文 参考訳(メタデータ) (2024-12-10T21:53:55Z) - EDA-Aware RTL Generation with Large Language Models [0.7831852829409273]
LLM(Large Language Models)は、RTLコードを生成するために人気が高まっている。
ゼロショット設定でエラーのないRTLコードを生成することは、最先端のLLMでも非常に難しい。
本稿では,構文と機能的エラーの反復的修正によるRTLコード生成の高速化を目的とした,自己検証型LLM非依存型エージェントフレームワークであるAIvril2を紹介する。
論文 参考訳(メタデータ) (2024-11-21T00:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。