論文の概要: VERIRL: Boosting the LLM-based Verilog Code Generation via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.18462v1
- Date: Mon, 25 Aug 2025 20:20:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.579825
- Title: VERIRL: Boosting the LLM-based Verilog Code Generation via Reinforcement Learning
- Title(参考訳): VERIRL:強化学習によるLLMベースのVerilogコード生成の促進
- Authors: Fu Teng, Miao Pan, Xuhong Zhang, Zhezhi He, Yiyao Yang, Xinyi Chai, Mengnan Qi, Liqiang Lu, Jianwei Yin,
- Abstract要約: 本稿では,Verilogコード生成に適した強化学習フレームワークを提案する。
スパース信号と雑音信号に対処するために,トレースバックに基づくRescore機構を提案する。
RL微調整中の破滅的忘れと過適合を軽減するため,サンプルバランスの重み付け戦略を導入する。
- 参考スコア(独自算出の注目度): 32.974199255760944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in code generation have shown remarkable success across software domains, yet hardware description languages (HDLs) such as Verilog remain underexplored due to their concurrency semantics, syntactic rigidity, and simulation complexity. In this work, we address these challenges by introducing a reinforcement learning (RL) framework tailored for Verilog code generation. We first construct Veribench-53K, a high-quality dataset curated from over 700K Verilog problems, enriched with structured prompts, complexity labels, and diverse testbenches. To tackle the problem of sparse and noisy reward signals, we propose a Trace-back based Rescore mechanism that leverages reasoning paths and iterative refinement to enhance feedback reliability and support reward model training. Furthermore, to mitigate catastrophic forgetting and overfitting during RL fine-tuning, we introduce a sample-balanced weighting strategy that adaptively balances learning dynamics based on reward-probability distributions. These innovations are integrated into an iterative RL pipeline that co-evolves the policy and reward models. In contrast to recent work such as CraftRTL, which relies on large-scale closed-source model distillation, and DeepSeek-style approaches that struggle with sparse feedback, our method demonstrates superior performance using a smaller but high-quality dataset combined with RL optimization. Experiments on Verilog generation tasks demonstrate state-of-the-art performance, with substantial gains in test pass rate, functional correctness, and compilation robustness. Our findings highlight the potential of RL-driven approaches for structured code generation in hardware-centric domains. VERIRL is publicly available at https://github.com/omniAI-Lab/VeriRL.
- Abstract(参考訳): コード生成の最近の進歩は、ソフトウェアドメイン全体で顕著な成功を収めているが、Verilogのようなハードウェア記述言語(HDL)は、その並行性の意味論、構文的剛性、シミュレーションの複雑さのために、未発見のままである。
本稿では,Verilogコード生成に適した強化学習(RL)フレームワークを導入することで,これらの課題に対処する。
まず,700K以上のVerilog問題から算出した高品質なデータセットであるVeribench-53Kを構築した。
疎結合でノイズの多い報酬信号に対処するため,評価経路と反復的改善を活用し,フィードバックの信頼性を高め,報酬モデルトレーニングを支援するトレースバックベースのリスコア機構を提案する。
さらに、RL微調整中の破滅的忘れと過度適合を緩和するため、報奨確率分布に基づいて学習力学を適応的にバランスさせるサンプルバランス重み付け戦略を導入する。
これらのイノベーションは、ポリシーと報酬モデルの共同進化である反復的なRLパイプラインに統合されます。
大規模なクローズソースモデル蒸留に依存するCraftRTLや,スパースフィードバックに苦慮するDeepSeekスタイルのアプローチとは対照的に,本手法では,RL最適化と組み合わせた小型で高品質なデータセットを用いて,優れた性能を示す。
Verilog生成タスクの実験では、テストパス率、機能的正確性、コンパイル堅牢性など、最先端のパフォーマンスがかなり向上している。
ハードウェア中心領域における構造化コード生成におけるRL駆動型アプローチの可能性を明らかにする。
VERIRLはhttps://github.com/omniAI-Lab/VeriRLで公開されている。
関連論文リスト
- DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。
本研究は,それらの認知過程と強化学習手法について考察する。
我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文 参考訳(メタデータ) (2025-06-25T17:35:47Z) - ReVeal: Self-Evolving Code Agents via Iterative Generation-Verification [6.983144806500892]
ReVealは、明示的な自己検証とツールベースの評価でコード生成をインターリーブするマルチターン強化学習フレームワークである。
モデルの生成と検証機能の共進化をRLトレーニングを通じて促進し、ベースモデルの推論境界を広げる。
また、より深い推論規則へのテストタイムスケーリングを可能にし、推論中にターン数が増加するにつれて、コードは一貫して進化する。
論文 参考訳(メタデータ) (2025-06-13T03:41:04Z) - VeriReason: Reinforcement Learning with Testbench Feedback for Reasoning-Enhanced Verilog Generation [9.07044866283158]
本稿では,教師付き微調整とガイド・リワード近似最適化(GRPO)によるRTL生成のための強化学習を統合するフレームワークであるVeriReasonを紹介する。
VerilogEvalベンチマークでは、VeriReasonは83.1%の機能的正当性を提供しており、比較可能なサイズのモデルと、GPT-4 Turboのようなはるかに大きな商用システムの両方を上回っている。
VeriReasonは、Verilog生成のための強化学習と明示的な推論機能をうまく統合する最初のシステムであり、自動RTL合成のための新しい最先端技術を確立している。
論文 参考訳(メタデータ) (2025-05-17T05:25:01Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Process Supervision-Guided Policy Optimization for Code Generation [15.943210767010045]
単体テストフィードバックによる強化学習(RL)は、大規模言語モデルのLLM(LLM)コード生成を強化したが、完全なコード評価後にのみ提供されるスパース報酬に依存している。
本稿では,人間のコード修正を模倣したプロセス・リワード・モデル(PRM)を提案する。
論文 参考訳(メタデータ) (2024-10-23T07:22:33Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - A Neuromorphic Architecture for Reinforcement Learning from Real-Valued
Observations [0.34410212782758043]
強化学習(RL)は複雑な環境における意思決定のための強力なフレームワークを提供する。
本稿では,実測値を用いてRL問題を解くための新しいスパイキングニューラルネットワーク(SNN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-07-06T12:33:34Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。