Fugu-MT 論文翻訳(概要): Insights from Verification: Training a Verilog Generation LLM with Reinforcement Learning with Testbench Feedback

論文の概要: Insights from Verification: Training a Verilog Generation LLM with Reinforcement Learning with Testbench Feedback

arxiv url: http://arxiv.org/abs/2504.15804v1
Date: Tue, 22 Apr 2025 11:38:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-30 20:43:29.667038
Title: Insights from Verification: Training a Verilog Generation LLM with Reinforcement Learning with Testbench Feedback
Title（参考訳）: 検証からの洞察:テストベンチフィードバックによる強化学習によるVerilog Generation LLMのトレーニング
Authors: Ning Wang, Bingkun Yao, Jie Zhou, Yuchen Hu, Xi Wang, Nan Guan, Zhe Jiang,
Abstract要約: 大規模言語モデル(LLM)は、自然言語記述からVerilog生成において強力な性能を示している。本稿では,テストベンチからの検証洞察をVerilog 生成 LLM のトレーニングに統合する手法を提案する。
参考スコア（独自算出の注目度）: 36.69082579950107
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have shown strong performance in Verilog generation from natural language description. However, ensuring the functional correctness of the generated code remains a significant challenge. This paper introduces a method that integrates verification insights from testbench into the training of Verilog generation LLMs, aligning the training with the fundamental goal of hardware design: functional correctness. The main obstacle in using LLMs for Verilog code generation is the lack of sufficient functional verification data, particularly testbenches paired with design specifications and code. To address this problem, we introduce an automatic testbench generation pipeline that decomposes the process and uses feedback from the Verilog compiler simulator (VCS) to reduce hallucination and ensure correctness. We then use the testbench to evaluate the generated codes and collect them for further training, where verification insights are introduced. Our method applies reinforcement learning (RL), specifically direct preference optimization (DPO), to align Verilog code generation with functional correctness by training preference pairs based on testbench outcomes. In evaluations on VerilogEval-Machine, VerilogEval-Human, RTLLM v1.1, RTLLM v2, and VerilogEval v2, our approach consistently outperforms state-of-the-art baselines in generating functionally correct Verilog code. We open source all training code, data, and models at https://anonymous.4open.science/r/VeriPrefer-E88B.
Abstract（参考訳）: 大規模言語モデル(LLM)は、自然言語記述からVerilog生成において強力な性能を示している。しかし、生成されたコードの機能的正確性を保証することは、依然として大きな課題である。本稿では,テストベンチからの検証洞察をVerilog 生成 LLM のトレーニングに統合し,ハードウェア設計の基本的な目標である機能的正しさとトレーニングを整合させる手法を提案する。 Verilogコード生成にLLMを使うことの主な障害は、十分な機能検証データ、特に設計仕様とコードと組み合わせたテストベンチがないことである。この問題に対処するために,プロセスの分解とVerilogコンパイラシミュレータ(VCS)からのフィードバックを用いた自動テストベンチ生成パイプラインを導入し,幻覚の低減と正しさの確保を図る。次に、テストベンチを使用して生成されたコードを評価し、さらなるトレーニングのために収集します。提案手法は,テストベンチ結果に基づく優先ペアのトレーニングにより,Verilogコード生成と機能的正しさを一致させるために,強化学習(RL)、特に直接選好最適化(DPO)を適用した。 VerilogEval-Machine, VerilogEval-Human, RTLLM v1.1, RTLLM v2, VerilogEval v2 の評価では,機能的に正しい Verilog コードを生成する際の最先端のベースラインを一貫して上回っている。私たちは、すべてのトレーニングコード、データ、モデルをhttps://anonymous.4open.science/r/VeriPrefer-E88Bでオープンソースにしています。

関連論文リスト

DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。本研究は,それらの認知過程と強化学習手法について考察する。我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文参考訳（メタデータ） (2025-06-25T17:35:47Z)
VeriReason: Reinforcement Learning with Testbench Feedback for Reasoning-Enhanced Verilog Generation [9.07044866283158]
本稿では,教師付き微調整とガイド・リワード近似最適化(GRPO)によるRTL生成のための強化学習を統合するフレームワークであるVeriReasonを紹介する。 VerilogEvalベンチマークでは、VeriReasonは83.1%の機能的正当性を提供しており、比較可能なサイズのモデルと、GPT-4 Turboのようなはるかに大きな商用システムの両方を上回っている。 VeriReasonは、Verilog生成のための強化学習と明示的な推論機能をうまく統合する最初のシステムであり、自動RTL合成のための新しい最先端技術を確立している。
論文参考訳（メタデータ） (2025-05-17T05:25:01Z)
Neural Theorem Proving: Generating and Structuring Proofs for Formal Verification [0.4779196219827508]
組込み戦術の力と既製の自動定理プローバーを利用するシステム内で使用される形式言語で全ての証明を生成するフレームワークを導入する。 LLMのトレーニングには2段階の微調整プロセスを使用し、まずSFTベースのトレーニングを使用して、モデルが構文的に正しいIsabelleコードを生成する。我々は,MiniF2F-testベンチマークとIsabelle証明アシスタントを用いてフレームワークを検証し,S3バケットアクセスポリシーコードの正当性を検証するためのユースケースを設計する。
論文参考訳（メタデータ） (2025-04-23T18:04:38Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Large Language Model for Verilog Generation with Code-Structure-Guided Reinforcement Learning [29.135207235743795]
本稿では、強化学習によって強化されたLLMであるVeriSeekを紹介し、高いVerilogコード生成性能を実現する。我々の強化学習アプローチでは、事前学習されたモデルを洗練するためのフィードバック信号として、コード構造情報を用いる。実験によると、VeriSeekは複数のベンチマークで最先端のメソッドよりも優れています。
論文参考訳（メタデータ） (2024-07-21T11:25:21Z)
Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models [54.14602121129874]
トレーニングデータを自動的に生成する最初のスケーラブルで信頼性の高いAutoIFを導入する。 AutoIFは命令追従データ品質の検証をコード検証に変換する。
論文参考訳（メタデータ） (2024-06-19T13:29:53Z)
Data is all you need: Finetuning LLMs for Chip Design via an Automated design-data augmentation framework [50.02710905062184]
本稿では,Verilog と EDA スクリプトに適合する高ボリュームかつ高品質な自然言語を生成する自動設計データ拡張フレームワークを提案する。 Verilog生成の精度は現在の最先端のオープンソースVerilog生成モデルを超え、同じベンチマークで58.8%から70.6%に増加した。
論文参考訳（メタデータ） (2024-03-17T13:01:03Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
VerilogEval: Evaluating Large Language Models for Verilog Code Generation [6.88526119890374]
本稿では,VerilogインストラクショナルWebサイトHDLBitsの156問題からなる総合評価データセットを提案する。評価セットは、単純な組合せ回路から複雑な有限状態マシンまで、様々なVerilogコード生成タスクからなる。
論文参考訳（メタデータ） (2023-09-14T09:15:34Z)
LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。 LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文参考訳（メタデータ） (2023-05-17T15:53:31Z)
Benchmarking Large Language Models for Automated Verilog RTL Code Generation [21.747037230069854]
有用なVerilogを生成するために,大規模言語モデル(LLM)を特徴付ける。機能解析のためのテストベンチと,Verilogコードの構文をテストするフローからなる評価フレームワークを構築した。その結果,LLMの微調整結果は,構文的に正しいコードを生成する能力が高いことがわかった。
論文参考訳（メタデータ） (2022-12-13T16:34:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。