論文の概要: ScaleRTL: Scaling LLMs with Reasoning Data and Test-Time Compute for Accurate RTL Code Generation
- arxiv url: http://arxiv.org/abs/2506.05566v1
- Date: Thu, 05 Jun 2025 20:24:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 21:34:56.752491
- Title: ScaleRTL: Scaling LLMs with Reasoning Data and Test-Time Compute for Accurate RTL Code Generation
- Title(参考訳): ScaleRTL: 正確なRTLコード生成のためのデータとテスト時間計算によるLLMのスケーリング
- Authors: Chenhui Deng, Yun-Da Tsai, Guan-Ting Liu, Zhongzhi Yu, Haoxing Ren,
- Abstract要約: 高品質な推論データとテスト時間計算の両方をスケールアップする RTL 符号化のための最初の推論 LLM である ScaleRTL を紹介する。
具体的には、56Kトークンを平均化して、RTLの豊富な知識をキャプチャする3.5Bトークンのデータセットを生成する。
このコーパス上で汎用推論モデルを微調整すると、深いRTL推論が可能なScaleRTLが得られる。
- 参考スコア(独自算出の注目度): 4.965247405975508
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have enabled near-human performance on software coding benchmarks, but their effectiveness in RTL code generation remains limited due to the scarcity of high-quality training data. While prior efforts have fine-tuned LLMs for RTL tasks, they do not fundamentally overcome the data bottleneck and lack support for test-time scaling due to their non-reasoning nature. In this work, we introduce ScaleRTL, the first reasoning LLM for RTL coding that scales up both high-quality reasoning data and test-time compute. Specifically, we curate a diverse set of long chain-of-thought reasoning traces averaging 56K tokens each, resulting in a dataset of 3.5B tokens that captures rich RTL knowledge. Fine-tuning a general-purpose reasoning model on this corpus yields ScaleRTL that is capable of deep RTL reasoning. Subsequently, we further enhance the performance of ScaleRTL through a novel test-time scaling strategy that extends the reasoning process via iteratively reflecting on and self-correcting previous reasoning steps. Experimental results show that ScaleRTL achieves state-of-the-art performance on VerilogEval and RTLLM, outperforming 18 competitive baselines by up to 18.4% on VerilogEval and 12.7% on RTLLM.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、ソフトウェアコーディングベンチマークにおいて、ほぼ人間に近い性能を実現しているが、高品質なトレーニングデータの不足により、RTLコード生成の有効性は制限されている。
以前の取り組みでは、RTLタスクのLLMを微調整していたが、データボトルネックを根本的に克服することはなく、非合理的な性質のため、テストタイムスケーリングのサポートが欠如している。
本稿では,高品質な推論データとテスト時間計算の両方をスケールアップする RTL 符号化のための最初の推論 LLM である ScaleRTL を紹介する。
具体的には、56Kトークンを平均化して、RTLの豊富な知識をキャプチャする3.5Bトークンのデータセットを生成する。
このコーパス上で汎用推論モデルを微調整すると、深いRTL推論が可能なScaleRTLが得られる。
次に,従来の推論手順を反復的に反映し,自己修正することで推論プロセスを拡張する新しいテストタイムスケーリング戦略により,ScaleRTLの性能をさらに向上させる。
実験の結果、ScaleRTLはVerilogEvalとRTLLMで最先端のパフォーマンスを達成し、VerilogEvalで最大18.4%、RTLLMで最大12.7%の競争ベースラインを上回りました。
関連論文リスト
- RTL++: Graph-enhanced LLM for RTL Code Generation [0.0]
従来のレジスタ転送レベル (RTL) の設計手法は手作業で、時間がかかり、エラーを起こしやすい。
オープンソースモデルは代替手段を提供するが、品質や正確性に欠けることが多い。
本稿では RTL コード生成のための LLM 支援手法 RTL++ を提案する。
論文 参考訳(メタデータ) (2025-05-11T00:17:26Z) - Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers [57.95157497749428]
RL$V$は、LLMを推論器と生成検証器の両方として共同で訓練することにより、任意の値自由なRL法を増強する。
RL$V$は、並列サンプリングでMATHの精度を20%以上向上し、効率的なテスト時間計算のスケーリングを可能にする。
論文 参考訳(メタデータ) (2025-05-07T22:41:26Z) - MetRex: A Benchmark for Verilog Code Metric Reasoning Using LLMs [2.0921175288836746]
大規模言語モデル(LLM)は、Verilogコード生成、EDAツールスクリプティング、RTLバグ修正など、様々なハードウェア設計タスクに適用されている。
本稿では,LLMがVerilog設計の合成後メトリクスを推論する能力を評価する。
MetRexは25,868のVerilog HDL設計とそれに対応する合成後測定値(面積,遅延,静的パワー)からなる大規模データセットである。
論文 参考訳(メタデータ) (2024-11-05T19:52:58Z) - OriGen:Enhancing RTL Code Generation with Code-to-Code Augmentation and Self-Reflection [54.775409528658486]
OriGenは、セルフリフレクション機能と新しいデータセット拡張方法論を組み込んだ、完全なオープンソースフレームワークである。
このアプローチでは,オープンソースのRTLコードデータセットの品質向上のために,コード-コード拡張技術を採用している。
論文 参考訳(メタデータ) (2024-07-23T07:22:25Z) - ITERTL: An Iterative Framework for Fine-tuning LLMs for RTL Code Generation [9.409062607311528]
大規模言語モデル(LLM)は優れた性能を示しており、研究者はレジスタ転送レベル(RTL)コード生成の自動化に利用することを模索している。
RTL生成のためのファインチューンLSMへの既存のアプローチは、通常、固定データセット上で実行される。
ITERTLと呼ばれる反復的なトレーニングパラダイムを導入し、これらの問題を緩和する。
我々のモデルは GPT4 と State-of-the-art (SOTA) のオープンソースモデルより優れており、VerilogEval- Human ベンチマークでは 53.8% のパス@1 レートを達成した。
論文 参考訳(メタデータ) (2024-06-28T01:44:57Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - Temporal Scaling Law for Large Language Models [57.83580734589091]
本稿では,LLMの試験損失が,トレーニングステップのスケールアップとともにどのように進展するかを考察する,時間スケーリング法の概念を提案する。
テスト損失全体を粗い粒度でモデル化するのとは対照的に、私たちはそれを分解して、各トークン位置のきめ細かいテスト損失に飛び込みます。
動的双曲法則におけるパラメータの時間的パターンを研究することにより、より正確な時間的スケーリング法則を導出する。
論文 参考訳(メタデータ) (2024-04-27T05:49:11Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。