論文の概要: Rule2DRC: Benchmarking LLM Agents for DRC Script Synthesis with Execution-Guided Test Generation
- arxiv url: http://arxiv.org/abs/2605.15669v1
- Date: Fri, 15 May 2026 06:46:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.196072
- Title: Rule2DRC: Benchmarking LLM Agents for DRC Script Synthesis with Execution-Guided Test Generation
- Title(参考訳): Rule2DRC: Execution-Guided Test Generation を用いた DRC スクリプト合成のための LLM エージェントのベンチマーク
- Authors: Jinuk Kim, Junsoo Byun, Donghwi Hwang, Seong-Jin Park, Hyun Oh Song,
- Abstract要約: Rule2DRCは、1000のルール・トゥ・スクリプトタスクと13,921のチップレイアウトを備えたDRCスクリプトコーディングエージェントの大規模なベンチマークである。
また,プログラム選択のためのテストエージェントであるSplitTesterを提案する。
- 参考スコア(独自算出の注目度): 12.455640968230407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Manufacturable chip layouts must satisfy thousands of geometry-based design rules, and design rule checking (DRC) enforces them by running executable DRC scripts on layouts. Translating natural language rules into correct DRC scripts is labor-intensive and requires specialized expertise, motivating LLM agents for DRC script synthesis and debugging. However, existing benchmarks have small evaluation sets and often evaluate scripts by code similarity rather than execution correctness, and prior machine learning-based methods either ignore execution feedback or require labeled test layouts as agent's input. To this end, we introduce Rule2DRC, a large-scale benchmark for DRC script coding agents with 1,000 rule-to-script tasks and 13,921 evaluation chip layouts for execution-based scoring. Rule2DRC provides an evaluation pipeline that measures functional correctness via DRC execution outcomes without requiring evaluation layouts as input to the agent. We also propose SplitTester, a tester agent for program selection that uses execution feedback to generate discriminative test cases and separate previously indistinguishable candidate scripts, substantially improving Best-of-N selection performance in this domain. We release the code at https://github.com/snu-mllab/Rule2DRC.
- Abstract(参考訳): 製造可能なチップレイアウトは幾万もの幾何学に基づく設計規則を満たす必要があり、設計規則チェック(DRC)はレイアウト上で実行可能なDRCスクリプトを実行することでそれらを強制する。
自然言語規則を正しいDRCスクリプトに変換するには労力がかかり、専門的な専門知識を必要とし、DRCスクリプトの合成とデバッグにLLMエージェントを動機付けている。
しかし、既存のベンチマークは小さな評価セットを持ち、実行の正確さよりもコード類似性によってスクリプトを評価することが多く、以前の機械学習ベースのメソッドは実行のフィードバックを無視したり、エージェントの入力としてラベル付けされたテストレイアウトを必要とする。
そこで本研究では,1000のルール・ツー・スクリプトタスクと13,921のチップレイアウトを備えた DRC スクリプトコーディングエージェントの大規模ベンチマークである Rule2DRC を紹介する。
Rule2DRCは、エージェントへの入力として評価レイアウトを必要とせずに、DRCの実行結果を介して機能的正確性を測定する評価パイプラインを提供する。
また,プログラム選択のためのテストエージェントであるSplitTesterを提案する。これは,実行フィードバックを用いて識別可能なテストケースを生成し,これまで識別できなかった候補スクリプトを分離し,この領域におけるベスト・オブ・N選択性能を大幅に向上させる。
コードをhttps://github.com/snu-mllab/Rule2DRCでリリースします。
関連論文リスト
- FeedbackLLM: Metadata driven Multi-Agentic Language Agnostic Test Case Generator with Evolving prompt and Coverage Feedback [0.0]
テストケース生成に対する従来のアプローチは、しばしば手作業と計算オーバーヘッドの増大を伴う。
We propose FeedbackLLM, a novel language-agnostic test case generation framework based on tightly coupled two-stage approach。
提案アーキテクチャの性能は,CプログラムとPythonプログラムに関連する標準ベンチマークプログラムで評価される。
論文 参考訳(メタデータ) (2026-05-02T05:43:29Z) - GlotOCR Bench: OCR Models Still Struggle Beyond a Handful of Unicode Scripts [58.92151016423978]
我々は100以上のUnicodeスクリプトでOCRを評価する総合ベンチマークであるGlotOCR Benchを紹介する。
我々のベンチマークは、実際の多言語テキストからレンダリングされたクリーンで劣化した画像の変種で構成されている。
オープンウェイトでプロプライエタリなビジョン言語モデルを幅広く評価した結果,ほとんどの場合,10文字未満でうまく動作することがわかった。
論文 参考訳(メタデータ) (2026-04-14T17:12:41Z) - An Agentic Evaluation Framework for AI-Generated Scientific Code in PETSc [7.236134946837382]
petscagent-benchはエージェント評価エージェントのパラダイムに基づいて構築されたエージェントフレームワークである。
正確性、パフォーマンス、コード品質、アルゴリズムの適切性、ライブラリ固有の規約の5つの評価カテゴリで14評価パイプラインを編成する。
本フレームワークは,HPC用PETScライブラリを用いて,現実的な問題のベンチマークスイート上で実演する。
論文 参考訳(メタデータ) (2026-03-16T22:46:10Z) - RewardHackingAgents: Benchmarking Evaluation Integrity for LLM ML-Engineering Agents [0.9821874476902969]
LLMエージェントは、単一のスカラーテストメトリクスで成功を判断するエンドツーエンドのMLエンジニアリングタスクをますます実行します。
エージェントは、モデルを改善するのではなく、評価パイプラインを妥協することで、報告されたスコアを増やすことができる。
ワークスペースベースのベンチマークであるRewardHackingAgentsを導入する。
論文 参考訳(メタデータ) (2026-03-11T22:06:44Z) - DEP: A Decentralized Large Language Model Evaluation Protocol [51.3646001384887]
分散評価プロトコル(Decentralized Evaluation Protocol, DEP)は、分散化されているが統一され、標準化された評価フレームワークである。
ユーザ、LLM、ベンチマークを分離することで、DEPはモジュラー、プラグ・アンド・プレイの評価を可能にする。
我々は,ブレークポイントの再開,同時要求,混雑制御などの機能をサポートするプロトコル互換ツールキットであるDEP Toolkitを開発した。
論文 参考訳(メタデータ) (2026-03-01T16:10:16Z) - D-LiFT: Improving LLM-based Decompiler Backend via Code Quality-driven Fine-tuning [49.16469288280772]
逆コンパイラは、バイナリから可読なソースコードを再構築する。
近年の進歩にもかかわらず、そのアウトプットは構文上の誤りや意味的な誤りに悩まされ、読みにくいままである。
大規模言語モデル (LLMs) の出現により、研究者は逆コンパイラ出力を洗練するためのLLMの可能性を探り始めた。
D-LIFTは、微調整強化学習を施した拡張逆コンパイラLLMパイプラインである。
論文 参考訳(メタデータ) (2025-06-11T19:09:08Z) - DRC-Coder: Automated DRC Checker Code Generation Using LLM Autonomous Agent [8.060577517205289]
統合設計規則チェッカー(DRC)は、電力性能領域の高速な最適化ループのためのルートツールやルートツールとしてよく用いられる。
商用のDRCツールの標準を満たすために統合されたDRCチェッカーを実装するには、広範な人間の専門知識が必要である。
自動DRCコード生成のための視覚機能を備えたマルチエージェントフレームワークであるDRC-Coderを提案する。
論文 参考訳(メタデータ) (2024-11-28T04:29:17Z) - SVTRv2: CTC Beats Encoder-Decoder Models in Scene Text Recognition [77.28814034644287]
テキストの不規則性や言語コンテキストのモデル化が可能なCTCモデルであるSVTRv2を提案する。
我々は,SVTRv2を標準ベンチマークと最近のベンチマークの両方で広範囲に評価した。
SVTRv2は精度と推論速度の点でほとんどのEDTRを超越している。
論文 参考訳(メタデータ) (2024-11-24T14:21:35Z) - DOCE: Finding the Sweet Spot for Execution-Based Code Generation [69.5305729627198]
本稿では,候補生成,$n$-best再ランク,最小ベイズリスク(MBR)復号化,自己老化などを含む包括的フレームワークを提案する。
本研究は,実行ベースメソッドの重要性と,実行ベースメソッドと実行フリーメソッドとの差を明らかにする。
論文 参考訳(メタデータ) (2024-08-25T07:10:36Z) - Execution-Based Evaluation of Natural Language to Bash and PowerShell for Incident Remediation [0.9176056742068815]
生成されたコードが構文的かつ意味論的に正しいか、意図した通りに正しく実行できるかを確認することは重要である。
大規模言語モデルによって生成されたコードの品質を評価するための現在の手法は、表面形状の類似度指標に大きく依存しています。
Bashを評価するための3つのテストスイートを作成した最初の実行ベース評価プラットフォームを提示する。
論文 参考訳(メタデータ) (2024-05-10T20:45:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。