Fugu-MT 論文翻訳(概要): VeriCoder: Enhancing LLM-Based RTL Code Generation through Functional Correctness Validation

論文の概要: VeriCoder: Enhancing LLM-Based RTL Code Generation through Functional Correctness Validation

arxiv url: http://arxiv.org/abs/2504.15659v1
Date: Tue, 22 Apr 2025 07:32:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-30 21:51:40.632164
Title: VeriCoder: Enhancing LLM-Based RTL Code Generation through Functional Correctness Validation
Title（参考訳）: VeriCoder: 関数的正確性検証によるLLMベースのRTLコード生成の強化
Authors: Anjiang Wei, Huanmi Tan, Tarun Suresh, Daniel Mendoza, Thiago S. F. X. Teixeira, Ke Wang, Caroline Trippel, Alex Aiken,
Abstract要約: 本稿では,関数的正当性を検証したデータセットを微調整した RTL コード生成モデル VERICODER を提案する。 125,000以上のサンプルからなるこのデータセットに基づいて、VERICODERはVerilogEvalとRTLLMの機能的正確性に関する最先端のメトリクスを達成している。
参考スコア（独自算出の注目度）: 6.378267757711319
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in Large Language Models (LLMs) have sparked growing interest in applying them to Electronic Design Automation (EDA) tasks, particularly Register Transfer Level (RTL) code generation. While several RTL datasets have been introduced, most focus on syntactic validity rather than functional validation with tests, leading to training examples that compile but may not implement the intended behavior. We present VERICODER, a model for RTL code generation fine-tuned on a dataset validated for functional correctness. This fine-tuning dataset is constructed using a novel methodology that combines unit test generation with feedback-directed refinement. Given a natural language specification and an initial RTL design, we prompt a teacher model (GPT-4o-mini) to generate unit tests and iteratively revise the RTL design based on its simulation results using the generated tests. If necessary, the teacher model also updates the tests to ensure they comply with the natural language specification. As a result of this process, every example in our dataset is functionally validated, consisting of a natural language description, an RTL implementation, and passing tests. Fine-tuned on this dataset of over 125,000 examples, VERICODER achieves state-of-the-art metrics in functional correctness on VerilogEval and RTLLM, with relative gains of up to 71.7% and 27.4% respectively. An ablation study further shows that models trained on our functionally validated dataset outperform those trained on functionally non-validated datasets, underscoring the importance of high-quality datasets in RTL code generation.
Abstract（参考訳）: 大規模言語モデル(LLM)の最近の進歩は、電子設計自動化(EDA)タスク、特にレジスタ転送レベル(RTL)コード生成にそれらを適用することへの関心が高まっている。いくつかのRTLデータセットが導入されたが、ほとんどの場合、テストによる機能的検証よりも構文的妥当性を重視しており、コンパイルされるが、意図した振る舞いを実装しないトレーニング例につながっている。本稿では,関数的正当性を検証したデータセットを微調整した RTL コード生成モデル VERICODER を提案する。この微調整データセットは、単体テスト生成とフィードバック指向の洗練を組み合わせた新しい手法を用いて構築される。自然言語仕様と初期RTL設計が与えられた場合、我々は教師モデル(GPT-4o-mini)に単体テストを生成するよう促し、生成したテストを用いてシミュレーション結果に基づいてRTL設計を反復的に修正する。必要であれば、教師モデルは、自然言語仕様に準拠するようにテストも更新する。このプロセスの結果として、私たちのデータセットのすべての例が機能的に検証され、自然言語記述、RTL実装、パステストで構成されています。 125,000以上のサンプルからなるこのデータセットに基づいて、VERICODERはVerilogEval と RTLLM で、それぞれ71.7% と 27.4% の相対的な利得を持つ、機能的正当性に関する最先端のメトリクスを達成している。アブレーション研究では、我々の機能検証データセットでトレーニングされたモデルは、機能検証されていないデータセットでトレーニングされたモデルよりも優れており、RTLコード生成における高品質なデータセットの重要性が強調されている。

関連論文リスト

Use Property-Based Testing to Bridge LLM Code Generation and Validation [38.25155484701058]
大きな言語モデル(LLM)はコード生成において優れていますが、その出力が機能的に正しいことを保証することは、永続的な課題です。本稿では,Property-Generated Solverを紹介した。Property-Based Testing (PBT)を活用して,高レベルのプログラム特性を検証する新しいフレームワークである。プロパティ生成ソルバーには、コード生成と反復リファインメント専用のジェネレータと、PBTライフサイクルを管理するテスタという、2つの共同LLMベースのエージェントが使用されている。
論文参考訳（メタデータ） (2025-06-23T06:01:12Z)
QiMeng-CodeV-R1: Reasoning-Enhanced Verilog Generation [51.393569044134445]
大きな言語モデル(LLM)は、強化学習と検証可能な報酬(RLVR)によって訓練され、明示的で自動化可能な検証を伴うタスクにおいてブレークスルーを達成した。しかし、自然言語(NL)仕様からVerilogのようなハードウェア記述言語(HDL)を自動的に生成するRLVRの拡張には、3つの大きな課題がある。本稿では,Verilog 生成 LLM をトレーニングするための RLVR フレームワークである CodeV-R1 を紹介する。
論文参考訳（メタデータ） (2025-05-30T03:51:06Z)
RTL++: Graph-enhanced LLM for RTL Code Generation [0.0]
従来のレジスタ転送レベル (RTL) の設計手法は手作業で、時間がかかり、エラーを起こしやすい。オープンソースモデルは代替手段を提供するが、品質や正確性に欠けることが多い。本稿では RTL コード生成のための LLM 支援手法 RTL++ を提案する。
論文参考訳（メタデータ） (2025-05-11T00:17:26Z)
Insights from Verification: Training a Verilog Generation LLM with Reinforcement Learning with Testbench Feedback [36.69082579950107]
大規模言語モデル(LLM)は、自然言語記述からVerilog生成において強力な性能を示している。本稿では,テストベンチからの検証洞察をVerilog 生成 LLM のトレーニングに統合する手法を提案する。
論文参考訳（メタデータ） (2025-04-22T11:38:14Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-29T04:14:32Z)
How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-10-04T13:39:21Z)
ITERTL: An Iterative Framework for Fine-tuning LLMs for RTL Code Generation [9.409062607311528]
大規模言語モデル(LLM)は、人間の命令を理解し、コードを生成するのに優れた性能を示した。我々は,ITERTLという,シンプルながら効果的な反復訓練パラダイムを導入する。提案手法によってトレーニングされたモデルは、最先端のオープンソースモデル(SOTA)と競合し、さらに優れていることを示す。
論文参考訳（メタデータ） (2024-06-28T01:44:57Z)
EPIC: Effective Prompting for Imbalanced-Class Data Synthesis in Tabular Data Classification via Large Language Models [39.347666307218006]
大規模言語モデル (LLM) は、多様なアプリケーションにまたがるテキスト内学習能力を示す。バランスの取れたデータサンプルと一貫したフォーマットと独自の変数マッピングを併用した新しい手法であるEPICを導入し、不均衡なデータセットであっても、全てのクラスで正確な合成データを生成するのにLLMをガイドする。
論文参考訳（メタデータ） (2024-04-15T17:49:16Z)
Exploring Data-Efficient Adaptation of Large Language Models for Code Generation [64.5583894165813]
コード生成のための誤り駆動学習を用いたデータ効率向上のための新しい適応手法DEEDを提案する。実験により、他の主流の微調整手法と比較して、DEEDは訓練データが少なく、優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-02-29T16:09:02Z)
UniTSyn: A Large-Scale Dataset Capable of Enhancing the Prowess of Large Language Models for Program Testing [27.45301385265713]
単体テスト合成のためのLLMの高度化が可能な大規模データセットUniTSynを提案する。 Language Server Protocolを活用することで、UniSynは、プロジェクトごとの実行セットアップや言語ごとのセットアップなしでフォーカス-テストペアを収集するという挑戦的な目標を達成する。実験により、UniTSynをベースとした自己回帰モデルを構築することにより、単体テスト表現の学習と理解において大きなメリットが得られます。
論文参考訳（メタデータ） (2024-02-04T22:48:05Z)
Automatic Unit Test Data Generation and Actor-Critic Reinforcement Learning for Code Synthesis [16.88062487980405]
本稿では,関数シグネチャと関連する単体テストからなるデータを自動的に取得する手法を提案する。自動生成したトレーニングデータと組み合わせることで,事前学習された言語モデルの性能が向上することを示す。
論文参考訳（メタデータ） (2023-10-20T17:13:16Z)
LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。 LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文参考訳（メタデータ） (2023-02-16T18:23:22Z)
Curriculum-Based Self-Training Makes Better Few-Shot Learners for Data-to-Text Generation [56.98033565736974]
テキスト生成の困難さによって決定される並べ替え順序でラベルのないデータを活用するために,カリキュラムベースの自己学習(CBST)を提案する。提案手法は、微調整およびタスク適応型事前学習法より優れており、データ・テキスト・ジェネレーションのわずかな設定で最先端の性能を実現することができる。
論文参考訳（メタデータ） (2022-06-06T16:11:58Z)
Offline RL for Natural Language Generation with Implicit Language Q Learning [87.76695816348027]
ユーザ指定タスクの完了に関して、大きな言語モデルは矛盾する可能性がある。本稿では,RLのフレキシブル・ユーティリティ・フレームワークと教師あり学習能力を組み合わせた新しいRL手法を提案する。 ILQLの実証的な検証に加えて、オフラインRLが自然言語生成設定で有用となるような、詳細な経験的分析状況も提示する。
論文参考訳（メタデータ） (2022-06-05T18:38:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。