論文の概要: EARL: Entropy-Aware RL Alignment of LLMs for Reliable RTL Code Generation
- arxiv url: http://arxiv.org/abs/2511.12033v1
- Date: Sat, 15 Nov 2025 05:00:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.51935
- Title: EARL: Entropy-Aware RL Alignment of LLMs for Reliable RTL Code Generation
- Title(参考訳): EARL: 信頼性RTLコード生成のためのLLMのエントロピー対応RLアライメント
- Authors: Jiahe Shi, Zhengqi Gao, Ching-Yun Ko, Duane Boning,
- Abstract要約: Reinforcement Learning with Verifiable Rewards (RLVR)は、モデル能力と実世界のRTL設計のギャップを埋める、有望なアプローチを提供する。
We present EARL, a Entropy-Aware Reinforcement Learning framework for Verilog generation。
- 参考スコア(独自算出の注目度): 7.512194032034432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models (LLMs) have demonstrated significant potential in hardware design automation, particularly in using natural language to synthesize Register-Transfer Level (RTL) code. Despite this progress, a gap remains between model capability and the demands of real-world RTL design, including syntax errors, functional hallucinations, and weak alignment to designer intent. Reinforcement Learning with Verifiable Rewards (RLVR) offers a promising approach to bridge this gap, as hardware provides executable and formally checkable signals that can be used to further align model outputs with design intent. However, in long, structured RTL code sequences, not all tokens contribute equally to functional correctness, and naïvely spreading gradients across all tokens dilutes learning signals. A key insight from our entropy analysis in RTL generation is that only a small fraction of tokens (e.g., always, if, assign, posedge) exhibit high uncertainty and largely influence control flow and module structure. To address these challenges, we present EARL, an Entropy-Aware Reinforcement Learning framework for Verilog generation. EARL performs policy optimization using verifiable reward signals and introduces entropy-guided selective updates that gate policy gradients to high-entropy tokens. This approach preserves training stability and concentrates gradient updates on functionally important regions of code. Our experiments on VerilogEval and RTLLM show that EARL improves functional pass rates over prior LLM baselines by up to 14.7%, while reducing unnecessary updates and improving training stability. These results indicate that focusing RL on critical, high-uncertainty tokens enables more reliable and targeted policy improvement for structured RTL code generation.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、ハードウェア設計の自動化、特にレジスター・トランスファー・レベル(RTL)コードを自然言語で合成する際の大きな可能性を示している。
この進歩にもかかわらず、モデル能力と実世界のRTL設計の要求との間には、構文エラー、機能的幻覚、設計意図への弱い整合性などのギャップが残っている。
RLVR(Reinforcement Learning with Verifiable Rewards)は、ハードウェアが実行可能で正式にチェック可能な信号を提供し、モデル出力を設計意図と整合させるため、このギャップを埋めるための有望なアプローチを提供する。
しかし、長く構造化されたRTL符号列では、全てのトークンが機能的正しさに等しく寄与するわけではなく、全てのトークンに勾配が広がり、学習信号が希薄になる。
RTL生成におけるエントロピー解析から得られる重要な洞察は、わずかなトークン(例えば、常に割り当て、ポーズ)だけが高い不確実性を示し、制御フローとモジュール構造に大きな影響を与えることである。
これらの課題に対処するため,我々は,Verilog 生成のための Entropy-Aware Reinforcement Learning フレームワーク EARL を提案する。
EARLは、検証可能な報酬信号を使用してポリシー最適化を行い、高エントロピートークンへのゲートポリシー勾配を付与するエントロピー誘導選択的更新を導入する。
このアプローチはトレーニングの安定性を保ち、機能的に重要なコードの領域に勾配更新を集中させる。
VerilogEval と RTLLM の実験により,EARL は従来の LLM ベースラインよりも14.7% 向上し,不要な更新を低減し,トレーニング安定性が向上した。
これらの結果は、RLを重要かつ不確実なトークンにフォーカスすることで、構造化RTLコード生成のためのより信頼性が高く、ターゲットとしたポリシー改善が可能になることを示唆している。
関連論文リスト
- QiMeng-SALV: Signal-Aware Learning for Verilog Code Generation [47.82802346420197]
我々は,Verilogコード生成のための信号認識学習(QiMeng-SALV)を提案する。
トレーニングデータにおける参照モジュールの機能的正当性を,参照モジュールの機能的正当性と比較することにより検証する。
最後に,信号レベル符号セグメントに最適化された信号認識型DPOを提案する。
論文 参考訳(メタデータ) (2025-10-22T06:58:07Z) - VERIRL: Boosting the LLM-based Verilog Code Generation via Reinforcement Learning [32.974199255760944]
本稿では,Verilogコード生成に適した強化学習フレームワークを提案する。
スパース信号と雑音信号に対処するために,トレースバックに基づくRescore機構を提案する。
RL微調整中の破滅的忘れと過適合を軽減するため,サンプルバランスの重み付け戦略を導入する。
論文 参考訳(メタデータ) (2025-08-25T20:20:44Z) - ChipSeek-R1: Generating Human-Surpassing RTL with LLM via Hierarchical Reward-Driven Reinforcement Learning [32.11086992218369]
ChipSeek-R1は、大規模な言語モデルのための階層的な報酬駆動強化学習フレームワークである。
関数的正当性とPPA最適化の両方のRTLコードを生成する。
RTLLMのベンチマークでは、ChipSeek-R1はオリジナルの人間の書いたコードのPPAメトリクスを超える27のRTL設計を作成した。
論文 参考訳(メタデータ) (2025-07-07T08:08:20Z) - AIvril: AI-Driven RTL Generation With Verification In-The-Loop [0.7831852829409273]
LLM(Large Language Models)は、複雑な自然言語処理タスクを実行できる計算モデルである。
本稿では,RTL対応LLMの精度と信頼性を高めるためのフレームワークであるAIvrilを紹介する。
論文 参考訳(メタデータ) (2024-09-03T15:07:11Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。