Fugu-MT 論文翻訳(概要): Synthesis-in-the-Loop Evaluation of LLMs for RTL Generation: Quality, Reliability, and Failure Modes

論文の概要: Synthesis-in-the-Loop Evaluation of LLMs for RTL Generation: Quality, Reliability, and Failure Modes

arxiv url: http://arxiv.org/abs/2603.11287v1
Date: Wed, 11 Mar 2026 20:26:58 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-13 14:46:25.630451
Title: Synthesis-in-the-Loop Evaluation of LLMs for RTL Generation: Quality, Reliability, and Failure Modes
Title（参考訳）: RTL生成用LCMの合成・最適評価:品質・信頼性・故障モード
Authors: Weimin Fu, Zeng Wang, Minghao Shao, Ramesh Karri, Muhammad Shafique, Johann Knechtel, Ozgur Sinanoglu, Xiaolong Guo,
Abstract要約: We evaluate 32 language model on 202 Verilog task from VerilogEval and RTLLM。 13機のフロンティアがGlobal HQIを71以上、Gemini-3-Proが主導する。 195の真の合成失敗のツール適応分類は、系統的な分岐を示す。
参考スコア（独自算出の注目度）: 17.628790209793415
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: RTL generation demands more than software code synthesis: designs must be syntactically valid, synthesizable, functionally correct, and hardware-efficient. Existing evaluations stop at functional correctness, leaving synthesizability and implementation quality unmeasured. We evaluate 32 language models on 202 Verilog tasks from VerilogEval and RTLLM, with five attempts each, scoring via the Hardware Quality Index (HQI), a 0--100 metric integrating post-synthesis area, delay, and warning count relative to expert references under a Nangate45 45\,nm flow. Three performance tiers emerge: 13 frontier models achieve Global HQI above 71, led by Gemini-3-Pro (87.5\% coverage, 85.1 HQI); 11 mid-tier models cluster at 53--68; 8 fall below 53. The capability-to-deployment gap (best-of-five vs.\ single-attempt) spans 3.8--22.1 HQI points, motivating multi-sample strategies. A tool-adjudicated taxonomy of 195 genuine synthesis failures reveals systematic divergence: proprietary models fail late through elaboration errors and synthesis timeout; open-weight models fail early through missing module wrappers and non-synthesizable constructs, consistent with training on simulation-grade rather than synthesis-grade RTL. Rankings hold across three technology libraries at Spearman~$ρ> 0.99$.
Abstract（参考訳）: RTL生成は、ソフトウェアコード合成以上のものを要求する:設計は、構文的に有効で、合成可能で、機能的に正しく、ハードウェア効率が良い。既存の評価は機能的正しさで停止し、合成性や実装品質は未測定のままである。 We evaluate 32 language model on 202 Verilog task from VerilogEval and RTLLM, with each five attempt, the Hardware Quality Index (HQI), a 0-100 metric integring post- synthesis area, delay, and warning count relative to expert references under a Nangate45 45\,nm flow。 13のフロンティアモデルがGlobal HQIを71以上で達成し、Gemini-3-Pro(87.5\%、85.1 HQI)がリードし、11の中間層モデルクラスタが53-68で、53より8降下した。能力とデプロイのギャップ(5対5のベスト)。単一攻撃)は3.8-22.1のHQIポイントにまたがり、マルチサンプル戦略を動機付けている。プロプライエタリなモデルは、エラボレーションエラーや合成タイムアウトによって遅くなる; オープンウェイトモデルは、モジュールラッパーの欠如と、合成級のRTLではなくシミュレーショングレードのトレーニングと整合して、非合成可能な構成物によって早期に失敗する。ランク付けはSpearman~$ρ> 0.99$の3つの技術ライブラリにまたがる。

関連論文リスト

From Brute Force to Semantic Insight: Performance-Guided Data Transformation Design with LLMs [48.83701310501069]
大規模言語モデル(LLM)は、コード合成において顕著な性能を達成した。本稿では,LLMが最適変換を自律的に設計できる性能対応クローズドループソリューションを提案する。 6,000以上のPyTorch拡張関数を実験的に評価した新しいリポジトリ上で,低ランク適応型LPMを微調整する。
論文参考訳（メタデータ） (2026-01-07T11:13:02Z)
From Memorization to Creativity: LLM as a Designer of Novel Neural-Architectures [48.83701310501069]
大規模言語モデル(LLM)は、プログラム合成において優れているが、ニューラルネットワーク設計(信頼性、性能、構造的ノベルティ)を自律的にナビゲートする能力は、未調査のままである。コード指向LLMをクローズドループ合成フレームワークに配置し、22の教師付き微調整サイクルの進化を解析することによって、この問題に対処する。
論文参考訳（メタデータ） (2026-01-06T13:20:28Z)
Close the Loop: Synthesizing Infinite Tool-Use Data via Multi-Agent Role-Playing [16.839489120513505]
InfToolは3つの協調エージェントを編成し、単一のターン呼び出しから複雑なマルチステップのゲートコールにまたがる多様な検証されたトラジェクトリを生成する。 InfToolは、ベース32Bモデルを19.8%から70.9%の精度(+258%)に変換し、Claude-Opusより10倍大きく、競合するClaude-Opusを上回ります。
論文参考訳（メタデータ） (2025-12-29T17:12:39Z)
Teaching Language Models to Reason with Tools [73.21700643314917]
emphHint-Engineeringは、推論経路内の最適点に様々なヒントを戦略的に注入する新しいデータ合成戦略である。 CoRTは効率を大幅に向上させ、32Bモデルのトークン使用量を約30%削減し、1.5Bモデルのトークン使用量を50%削減した。
論文参考訳（メタデータ） (2025-10-23T08:41:44Z)
Goedel-Prover-V2: Scaling Formal Theorem Proving with Scaffolded Data Synthesis and Self-Correction [95.91743732150233]
一連のオープンソースの言語モデルであるGoedel-Prover-V2は、自動定理の新たな最先端を証明した。我々は、より複雑な定理をマスターするためにモデルを訓練することの困難さを増す合成タスクを生成する。 Goedel-Prover-V2-32Bは、標準モードのpass@32でMiniF2Fの88.1%、自己補正モードの90.4%を達成する。
論文参考訳（メタデータ） (2025-08-05T16:28:22Z)
CodeARC: Benchmarking Reasoning Capabilities of LLM Agents for Inductive Program Synthesis [6.8081984950459]
既存の評価プロトコルは、静的なサンプルセットとホールドアウトテストに依存しており、合成された関数が正しくない場合にフィードバックを提供する。エージェントが隠れたターゲット関数と対話する新しい評価フレームワークであるCodeARCを提案する。 1114の関数を特徴とする汎用帰納的プログラム合成のための,最初の大規模ベンチマークを構築した。
論文参考訳（メタデータ） (2025-03-29T16:50:39Z)
Fully Autonomous Programming using Iterative Multi-Agent Debugging with Large Language Models [8.70160958177614]
大言語モデル(LLM)を用いたプログラム合成は「ニアミス症候群」に苦しむ我々は、SEIDR(Synthesize, Execute, Instruct, Debug and repair)と呼ばれるマルチエージェントフレームワークでこの問題に対処する。代替に焦点を当てた、修復に焦点を当てた、ハイブリッドなデバッグ戦略を比較することで、これらのトレードオフを実証的に探求します。
論文参考訳（メタデータ） (2025-03-10T16:56:51Z)
START: Self-taught Reasoner with Tools [51.38785489790888]
ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。 STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
論文参考訳（メタデータ） (2025-03-06T17:11:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。