論文の概要: StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis
- arxiv url: http://arxiv.org/abs/2606.04246v1
- Date: Tue, 02 Jun 2026 21:52:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.399153
- Title: StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis
- Title(参考訳): StepPRM-RTL:Stepwise Process-Reward Guided LLM Fine-TuningによるRTL合成の高速化
- Authors: Prashanth Vijayaraghavan, Apoorva Nitsure, Luyao Shi, Ehsan Degan, Vandana Mukherjee,
- Abstract要約: 本稿では,段階的軌跡モデリング,プロセス・リワードモデリング,検索強化微調整を組み合わせた新しいフレームワークであるStepPRM-RTLを提案する。
StepPRM-RTLは、各ステップが合理的かつインクリメンタルなコード修正を含む、標準的なソリューションからのステップワイズ推論トラジェクトリを構築する。
Monte Carlo Tree Search (MCTS)は、トレーニングデータセットを高品質な軌道で強化し、代替の推論パスを探索する。
- 参考スコア(独自算出の注目度): 8.522674895225597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic generation of RTL code for digital hardware designs remains challenging due to long-horizon reasoning, multi-step dependencies, and strict correctness constraints in Verilog and VHDL. We present StepPRM-RTL, a novel framework that combines stepwise trajectory modeling, process-reward modeling (PRM), and retrieval-augmented fine-tuning (RAFT) to enhance both the functional correctness and reasoning fidelity of LLM-based RTL code generation. StepPRM-RTL constructs stepwise reasoning trajectories from canonical solutions, where each step contains a rationale and incremental code modification. A Process Reward Model (PRM) evaluates intermediate steps, providing dense feedback that guides reinforcement-style updates during RAFT fine-tuning. Monte Carlo Tree Search (MCTS) explores alternative reasoning paths, enriching the training dataset with high-quality trajectories. This integration of stepwise and outcome-aware rewards allows the model to learn both how and why to construct correct RTL, improving long-horizon reasoning beyond standard supervised or outcome-based training. Experimental evaluation on benchmark Verilog and VHDL datasets demonstrates that StepPRM-RTL outperforms the best prior methods by over 10\% in functional correctness and reasoning fidelity metrics. Ablation studies confirm that the combination of PRM-guided rewards and stepwise trajectory exploration is key to its performance. StepPRM-RTL generalizes across RTL languages and provides a scalable framework for high-fidelity, interpretable code generation, establishing a new standard for LLM-assisted hardware design automation.
- Abstract(参考訳): デジタルハードウェア設計のためのRTLコードの自動生成は、長い水平推論、多段階依存、VerilogとVHDLの厳密な正当性制約のため、依然として困難である。
ステップPRM-RTL(StepPRM-RTL)は,ステップワイズトラジェクトリ・モデリング,プロセス・リワード・モデリング(PRM),検索強化ファインチューニング(RAFT)を組み合わせた新しいフレームワークである。
StepPRM-RTLは、各ステップが合理的かつインクリメンタルなコード修正を含む、標準的なソリューションからのステップワイズ推論トラジェクトリを構築する。
プロセス・リワード・モデル(PRM)は中間ステップを評価し、RAFT微調整中に強化スタイルの更新をガイドする濃厚なフィードバックを提供する。
Monte Carlo Tree Search (MCTS)は、トレーニングデータセットを高品質な軌道で強化し、代替の推論パスを探索する。
このステップワイズと結果認識の報酬の統合により、モデルが正しいRTLを構築する方法と理由の両方を学ぶことができ、標準的な教師付きトレーニングや結果に基づくトレーニングを超えて、長期的推論を改善することができる。
ベンチマークVerilogおよびVHDLデータセットの実験評価により、StepPRM-RTLは、機能的正しさと推論忠実度の測定値が10%以上向上していることが示されている。
アブレーション研究は、PRM誘導報酬と段階的な軌道探索の組み合わせが、その性能の鍵であることを確認した。
StepPRM-RTLはRTL言語を一般化し、高忠実で解釈可能なコード生成のためのスケーラブルなフレームワークを提供する。
関連論文リスト
- HYPERHEURIST: A Simulated Annealing-Based Control Framework for LLM-Driven Code Generation in Optimized Hardware Design [0.0]
大規模言語モデル(LLM)は、レジスタ転送レベル(RTL)ハードウェア設計を作成するための有望な進歩を示している。
しかし、単一ショットのLLM生成は、機能的に正しい設計と電力効率の両方を一貫して作るのに苦労している。
本稿では,LLM生成RTLを最終設計ではなく中間候補として扱うシミュレーションアニーリングに基づく制御フレームワークであるHYPERHEURISTを提案する。
論文 参考訳(メタデータ) (2026-04-17T02:39:20Z) - Understanding by Reconstruction: Reversing the Software Development Process for LLM Pretraining [66.89012795621349]
大規模言語モデル(LLM)は、複雑なソフトウェア工学に必要な、深く、長期にわたる推論に苦しむことが多い。
本稿では,再構築による理解という,新しいパラダイムを提案する。
マルチエージェントシミュレーションを用いて潜在エージェント軌道を合成するフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-11T09:23:20Z) - ACE-RTL: When Agentic Context Evolution Meets RTL-Specialized LLMs [12.204779627626273]
ACE-RTLは170万のRTLサンプルの大規模なデータセットに基づいて訓練されたRTL特化LDMを統合している。
Comprehensive Verilog Design Problems (CVDP)ベンチマークでは、ACE-RTLは14の競争基準よりも44.87%のパスレート改善を達成した。
論文 参考訳(メタデータ) (2026-02-10T19:09:13Z) - ProRAG: Process-Supervised Reinforcement Learning for Retrieval-Augmented Generation [54.071574153853994]
ProRAGは、学習段階の監視をオンライン最適化ループに統合するために設計されたプロセス教師付き強化学習フレームワークである。
本フレームワークは,(1)構造化推論形式でモデルを初期化するための監視されたポリシーワームアップ,(2)中間推論品質を定量化するためのMCTSベースのプロセスリワードモデル(PRM)の構築,(3)細粒度プロセスの好みに合わせてポリシーを調整するためのPRM誘導推論リファインメント,(4)プロセススーパービジョン強化学習と2つのグラニュラリティー・アドバンテージ・メカニズムの4段階から構成される。
論文 参考訳(メタデータ) (2026-01-29T16:04:59Z) - ChipSeek-R1: Generating Human-Surpassing RTL with LLM via Hierarchical Reward-Driven Reinforcement Learning [32.11086992218369]
ChipSeek-R1は、大規模な言語モデルのための階層的な報酬駆動強化学習フレームワークである。
関数的正当性とPPA最適化の両方のRTLコードを生成する。
RTLLMのベンチマークでは、ChipSeek-R1はオリジナルの人間の書いたコードのPPAメトリクスを超える27のRTL設計を作成した。
論文 参考訳(メタデータ) (2025-07-07T08:08:20Z) - TuRTLe: A Unified Evaluation of LLMs for RTL Generation [0.6010802600885173]
本研究では,主要なRTL生成タスク間でLLMを評価するための統合評価フレームワークTuRTLeを提案する。
オープンLLMの多様なセットをベンチマークし、EDA固有のタスクの長所と短所を分析します。
以上の結果から,DeepSeek R1のような推論モデルの方が,複数の評価基準で常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-03-31T07:43:12Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。