Fugu-MT 論文翻訳(概要): ScaleRTL: Scaling LLMs with Reasoning Data and Test-Time Compute for Accurate RTL Code Generation

論文の概要: ScaleRTL: Scaling LLMs with Reasoning Data and Test-Time Compute for Accurate RTL Code Generation

arxiv url: http://arxiv.org/abs/2506.05566v2
Date: Tue, 15 Jul 2025 21:44:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-17 19:00:11.02955
Title: ScaleRTL: Scaling LLMs with Reasoning Data and Test-Time Compute for Accurate RTL Code Generation
Title（参考訳）: ScaleRTL: 正確なRTLコード生成のためのデータとテスト時間計算によるLLMのスケーリング
Authors: Chenhui Deng, Yun-Da Tsai, Guan-Ting Liu, Zhongzhi Yu, Haoxing Ren,
Abstract要約: 高品質な推論データとテスト時間計算の両方をスケールアップする RTL 符号化のための最初の推論 LLM である ScaleRTL を紹介する。具体的には、56Kトークンを平均化して、RTLの豊富な知識をキャプチャする3.5Bトークンのデータセットを生成する。このコーパス上で汎用推論モデルを微調整すると、深いRTL推論が可能なScaleRTLが得られる。
参考スコア（独自算出の注目度）: 4.965247405975508
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in large language models (LLMs) have enabled near-human performance on software coding benchmarks, but their effectiveness in RTL code generation remains limited due to the scarcity of high-quality training data. While prior efforts have fine-tuned LLMs for RTL tasks, they do not fundamentally overcome the data bottleneck and lack support for test-time scaling due to their non-reasoning nature. In this work, we introduce ScaleRTL, the first reasoning LLM for RTL coding that scales up both high-quality reasoning data and test-time compute. Specifically, we curate a diverse set of long chain-of-thought reasoning traces averaging 56K tokens each, resulting in a dataset of 3.5B tokens that captures rich RTL knowledge. Fine-tuning a general-purpose reasoning model on this corpus yields ScaleRTL that is capable of deep RTL reasoning. Subsequently, we further enhance the performance of ScaleRTL through a novel test-time scaling strategy that extends the reasoning process via iteratively reflecting on and self-correcting previous reasoning steps. Experimental results show that ScaleRTL achieves state-of-the-art performance on VerilogEval and RTLLM, outperforming 18 competitive baselines by up to 18.4% on VerilogEval and 12.7% on RTLLM.
Abstract（参考訳）: 大規模言語モデル(LLM)の最近の進歩は、ソフトウェアコーディングベンチマークにおいて、ほぼ人間に近い性能を実現しているが、高品質なトレーニングデータの不足により、RTLコード生成の有効性は制限されている。以前の取り組みでは、RTLタスクのLLMを微調整していたが、データボトルネックを根本的に克服することはなく、非合理的な性質のため、テストタイムスケーリングのサポートが欠如している。本稿では,高品質な推論データとテスト時間計算の両方をスケールアップする RTL 符号化のための最初の推論 LLM である ScaleRTL を紹介する。具体的には、56Kトークンを平均化して、RTLの豊富な知識をキャプチャする3.5Bトークンのデータセットを生成する。このコーパス上で汎用推論モデルを微調整すると、深いRTL推論が可能なScaleRTLが得られる。次に,従来の推論手順を反復的に反映し,自己修正することで推論プロセスを拡張する新しいテストタイムスケーリング戦略により,ScaleRTLの性能をさらに向上させる。実験の結果、ScaleRTLはVerilogEvalとRTLLMで最先端のパフォーマンスを達成し、VerilogEvalで最大18.4%、RTLLMで最大12.7%の競争ベースラインを上回りました。

関連論文リスト

ACE-RTL: When Agentic Context Evolution Meets RTL-Specialized LLMs [12.204779627626273]
ACE-RTLは170万のRTLサンプルの大規模なデータセットに基づいて訓練されたRTL特化LDMを統合している。 Comprehensive Verilog Design Problems (CVDP)ベンチマークでは、ACE-RTLは14の競争基準よりも44.87%のパスレート改善を達成した。
論文参考訳（メタデータ） (2026-02-10T19:09:13Z)
CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文参考訳（メタデータ） (2026-01-30T10:33:29Z)
VeriDispatcher: Multi-Model Dispatching through Pre-Inference Difficulty Prediction for RTL Generation Optimization [15.38010259999926]
大規模言語モデル(LLM)は、RTL生成において強い性能を示すが、アーキテクチャとトレーニングの違いのため、異なるモデルが異なるタスクで優れている。本稿では,マルチLLM RTL生成フレームワークであるVeriDispatcherを提案する。
論文参考訳（メタデータ） (2025-11-27T20:45:26Z)
Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文参考訳（メタデータ） (2025-11-09T03:38:29Z)
DecoRTL: A Run-time Decoding Framework for RTL Code Generation with LLMs [0.0]
大規模言語モデル (LLM) は構造的あいまいさや意味的複雑さの領域において信頼性が低いことを示す。本稿では,新しい実行時デコーディング戦略であるDecoRTLを紹介する。私たちのアプローチは、追加のモデル微調整を必要とせずに、完全に推論時に動作します。
論文参考訳（メタデータ） (2025-07-03T01:17:44Z)
PRO-V: An Efficient Program Generation Multi-Agent System for Automatic RTL Verification [6.983135183126461]
Pro-Vは、堅牢なRTL検証のためのプログラム生成マルチエージェントシステムである。生成したテストベンチの正しさを高めるため、効率的なn個の反復サンプリング戦略が組み込まれている。 Pro-Vは、黄金のRTL実装では87.17%、RTL変異では76.28%の精度で検証されている。
論文参考訳（メタデータ） (2025-06-13T20:06:34Z)
QiMeng-CodeV-R1: Reasoning-Enhanced Verilog Generation [51.393569044134445]
大きな言語モデル(LLM)は、強化学習と検証可能な報酬(RLVR)によって訓練され、明示的で自動化可能な検証を伴うタスクにおいてブレークスルーを達成した。しかし、自然言語(NL)仕様からVerilogのようなハードウェア記述言語(HDL)を自動的に生成するRLVRの拡張には、3つの大きな課題がある。本稿では,Verilog 生成 LLM をトレーニングするための RLVR フレームワークである CodeV-R1 を紹介する。
論文参考訳（メタデータ） (2025-05-30T03:51:06Z)
RTL++: Graph-enhanced LLM for RTL Code Generation [0.0]
従来のレジスタ転送レベル (RTL) の設計手法は手作業で、時間がかかり、エラーを起こしやすい。オープンソースモデルは代替手段を提供するが、品質や正確性に欠けることが多い。本稿では RTL コード生成のための LLM 支援手法 RTL++ を提案する。
論文参考訳（メタデータ） (2025-05-11T00:17:26Z)
Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers [57.95157497749428]
RL$V$は、LLMを推論器と生成検証器の両方として共同で訓練することにより、任意の値自由なRL法を増強する。 RL$V$は、並列サンプリングでMATHの精度を20%以上向上し、効率的なテスト時間計算のスケーリングを可能にする。
論文参考訳（メタデータ） (2025-05-07T22:41:26Z)
RTLRepoCoder: Repository-Level RTL Code Completion through the Combination of Fine-Tuning and Retrieval Augmentation [6.428086269916113]
RTLRepoCoderは,レポジトリレベルのVerilogコード補完のために,特定の微調整および検索型拡張生成(RAG)を組み込んだ画期的なソリューションである。提案手法は,GPT-4 および高度なドメイン固有 LLM の編集類似性および実行一致率を大幅に上回る,公開ベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2025-04-11T09:04:50Z)
MetRex: A Benchmark for Verilog Code Metric Reasoning Using LLMs [2.0921175288836746]
大規模言語モデル(LLM)は、Verilogコード生成、EDAツールスクリプティング、RTLバグ修正など、様々なハードウェア設計タスクに適用されている。本稿では,LLMがVerilog設計の合成後メトリクスを推論する能力を評価する。 MetRexは25,868のVerilog HDL設計とそれに対応する合成後測定値(面積,遅延,静的パワー)からなる大規模データセットである。
論文参考訳（メタデータ） (2024-11-05T19:52:58Z)
Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文参考訳（メタデータ） (2024-11-01T20:44:59Z)
OriGen:Enhancing RTL Code Generation with Code-to-Code Augmentation and Self-Reflection [54.775409528658486]
OriGenは、セルフリフレクション機能と新しいデータセット拡張方法論を組み込んだ、完全なオープンソースフレームワークである。このアプローチでは,オープンソースのRTLコードデータセットの品質向上のために,コード-コード拡張技術を採用している。
論文参考訳（メタデータ） (2024-07-23T07:22:25Z)
ITERTL: An Iterative Framework for Fine-tuning LLMs for RTL Code Generation [9.409062607311528]
大規模言語モデル(LLM)は優れた性能を示しており、研究者はレジスタ転送レベル(RTL)コード生成の自動化に利用することを模索している。 RTL生成のためのファインチューンLSMへの既存のアプローチは、通常、固定データセット上で実行される。 ITERTLと呼ばれる反復的なトレーニングパラダイムを導入し、これらの問題を緩和する。我々のモデルは GPT4 と State-of-the-art (SOTA) のオープンソースモデルより優れており、VerilogEval- Human ベンチマークでは 53.8% のパス@1 レートを達成した。
論文参考訳（メタデータ） (2024-06-28T01:44:57Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
Temporal Scaling Law for Large Language Models [57.83580734589091]
本稿では,LLMの試験損失が,トレーニングステップのスケールアップとともにどのように進展するかを考察する,時間スケーリング法の概念を提案する。テスト損失全体を粗い粒度でモデル化するのとは対照的に、私たちはそれを分解して、各トークン位置のきめ細かいテスト損失に飛び込みます。動的双曲法則におけるパラメータの時間的パターンを研究することにより、より正確な時間的スケーリング法則を導出する。
論文参考訳（メタデータ） (2024-04-27T05:49:11Z)
FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文参考訳（メタデータ） (2024-04-05T02:35:43Z)
Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。我々は「反射チューニング」と呼ばれる新しい手法を提案する。このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文参考訳（メタデータ） (2023-10-18T05:13:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。