Fugu-MT 論文翻訳(概要): EARL: Entropy-Aware RL Alignment of LLMs for Reliable RTL Code Generation

論文の概要: EARL: Entropy-Aware RL Alignment of LLMs for Reliable RTL Code Generation

arxiv url: http://arxiv.org/abs/2511.12033v1
Date: Sat, 15 Nov 2025 05:00:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-18 14:36:23.51935
Title: EARL: Entropy-Aware RL Alignment of LLMs for Reliable RTL Code Generation
Title（参考訳）: EARL: 信頼性RTLコード生成のためのLLMのエントロピー対応RLアライメント
Authors: Jiahe Shi, Zhengqi Gao, Ching-Yun Ko, Duane Boning,
Abstract要約: Reinforcement Learning with Verifiable Rewards (RLVR)は、モデル能力と実世界のRTL設計のギャップを埋める、有望なアプローチを提供する。 We present EARL, a Entropy-Aware Reinforcement Learning framework for Verilog generation。
参考スコア（独自算出の注目度）: 7.512194032034432
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in large language models (LLMs) have demonstrated significant potential in hardware design automation, particularly in using natural language to synthesize Register-Transfer Level (RTL) code. Despite this progress, a gap remains between model capability and the demands of real-world RTL design, including syntax errors, functional hallucinations, and weak alignment to designer intent. Reinforcement Learning with Verifiable Rewards (RLVR) offers a promising approach to bridge this gap, as hardware provides executable and formally checkable signals that can be used to further align model outputs with design intent. However, in long, structured RTL code sequences, not all tokens contribute equally to functional correctness, and naïvely spreading gradients across all tokens dilutes learning signals. A key insight from our entropy analysis in RTL generation is that only a small fraction of tokens (e.g., always, if, assign, posedge) exhibit high uncertainty and largely influence control flow and module structure. To address these challenges, we present EARL, an Entropy-Aware Reinforcement Learning framework for Verilog generation. EARL performs policy optimization using verifiable reward signals and introduces entropy-guided selective updates that gate policy gradients to high-entropy tokens. This approach preserves training stability and concentrates gradient updates on functionally important regions of code. Our experiments on VerilogEval and RTLLM show that EARL improves functional pass rates over prior LLM baselines by up to 14.7%, while reducing unnecessary updates and improving training stability. These results indicate that focusing RL on critical, high-uncertainty tokens enables more reliable and targeted policy improvement for structured RTL code generation.
Abstract（参考訳）: 大規模言語モデル(LLM)の最近の進歩は、ハードウェア設計の自動化、特にレジスター・トランスファー・レベル(RTL)コードを自然言語で合成する際の大きな可能性を示している。この進歩にもかかわらず、モデル能力と実世界のRTL設計の要求との間には、構文エラー、機能的幻覚、設計意図への弱い整合性などのギャップが残っている。 RLVR(Reinforcement Learning with Verifiable Rewards)は、ハードウェアが実行可能で正式にチェック可能な信号を提供し、モデル出力を設計意図と整合させるため、このギャップを埋めるための有望なアプローチを提供する。しかし、長く構造化されたRTL符号列では、全てのトークンが機能的正しさに等しく寄与するわけではなく、全てのトークンに勾配が広がり、学習信号が希薄になる。 RTL生成におけるエントロピー解析から得られる重要な洞察は、わずかなトークン(例えば、常に割り当て、ポーズ)だけが高い不確実性を示し、制御フローとモジュール構造に大きな影響を与えることである。これらの課題に対処するため,我々は,Verilog 生成のための Entropy-Aware Reinforcement Learning フレームワーク EARL を提案する。 EARLは、検証可能な報酬信号を使用してポリシー最適化を行い、高エントロピートークンへのゲートポリシー勾配を付与するエントロピー誘導選択的更新を導入する。このアプローチはトレーニングの安定性を保ち、機能的に重要なコードの領域に勾配更新を集中させる。 VerilogEval と RTLLM の実験により,EARL は従来の LLM ベースラインよりも14.7% 向上し,不要な更新を低減し,トレーニング安定性が向上した。これらの結果は、RLを重要かつ不確実なトークンにフォーカスすることで、構造化RTLコード生成のためのより信頼性が高く、ターゲットとしたポリシー改善が可能になることを示唆している。

関連論文リスト

Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文参考訳（メタデータ） (2025-12-03T13:05:32Z)
QiMeng-SALV: Signal-Aware Learning for Verilog Code Generation [47.82802346420197]
我々は,Verilogコード生成のための信号認識学習(QiMeng-SALV)を提案する。トレーニングデータにおける参照モジュールの機能的正当性を,参照モジュールの機能的正当性と比較することにより検証する。最後に,信号レベル符号セグメントに最適化された信号認識型DPOを提案する。
論文参考訳（メタデータ） (2025-10-22T06:58:07Z)
VERIRL: Boosting the LLM-based Verilog Code Generation via Reinforcement Learning [32.974199255760944]
本稿では,Verilogコード生成に適した強化学習フレームワークを提案する。スパース信号と雑音信号に対処するために,トレースバックに基づくRescore機構を提案する。 RL微調整中の破滅的忘れと過適合を軽減するため,サンプルバランスの重み付け戦略を導入する。
論文参考訳（メタデータ） (2025-08-25T20:20:44Z)
ChipSeek-R1: Generating Human-Surpassing RTL with LLM via Hierarchical Reward-Driven Reinforcement Learning [32.11086992218369]
ChipSeek-R1は、大規模な言語モデルのための階層的な報酬駆動強化学習フレームワークである。関数的正当性とPPA最適化の両方のRTLコードを生成する。 RTLLMのベンチマークでは、ChipSeek-R1はオリジナルの人間の書いたコードのPPAメトリクスを超える27のRTL設計を作成した。
論文参考訳（メタデータ） (2025-07-07T08:08:20Z)
RTL++: Graph-enhanced LLM for RTL Code Generation [0.0]
従来のレジスタ転送レベル (RTL) の設計手法は手作業で、時間がかかり、エラーを起こしやすい。オープンソースモデルは代替手段を提供するが、品質や正確性に欠けることが多い。本稿では RTL コード生成のための LLM 支援手法 RTL++ を提案する。
論文参考訳（メタデータ） (2025-05-11T00:17:26Z)
AIvril: AI-Driven RTL Generation With Verification In-The-Loop [0.7831852829409273]
LLM(Large Language Models)は、複雑な自然言語処理タスクを実行できる計算モデルである。本稿では,RTL対応LLMの精度と信頼性を高めるためのフレームワークであるAIvrilを紹介する。
論文参考訳（メタデータ） (2024-09-03T15:07:11Z)
GLARE: Low Light Image Enhancement via Generative Latent Feature based Codebook Retrieval [80.96706764868898]
我々は、GLARE(Generative LAtent Feature based codebook Retrieval)を介して、新しい低照度画像強調(LLIE)ネットワークを提案する。 Invertible Latent Normalizing Flow (I-LNF) モジュールを開発し、LL特徴分布をNL潜在表現に整合させ、コードブック内の正しいコード検索を保証する。さまざまなベンチマークデータセットと実世界のデータに対するGLAREの優れたパフォーマンスを確認する実験。
論文参考訳（メタデータ） (2024-07-17T09:40:15Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文参考訳（メタデータ） (2019-02-02T20:09:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。