論文の概要: RTLSeek: Boosting the LLM-Based RTL Generation with Multi-Stage Diversity-Oriented Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.27630v1
- Date: Sun, 29 Mar 2026 11:01:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.048651
- Title: RTLSeek: Boosting the LLM-Based RTL Generation with Multi-Stage Diversity-Oriented Reinforcement Learning
- Title(参考訳): RTLSeek:多段階多様性指向強化学習によるLLMベースのRTL生成の促進
- Authors: Xinyu Zhang, Zhiteng Chao, Yonghao Wang, Bin Sun, Tianyun Ma, Tianmeng Yang, Jianan Mu, Jing Justin Ye, Huawei Li,
- Abstract要約: LLMベースのRTL生成は有望であるが、機能的に検証可能な高品質なデータの不足は、精度と多様性の両方を制限している。
RTLの正しさと多様性を改善するためにルールベースの多様性指向強化学習を適用した後学習パラダイムであるRTLSeekを提案する。
我々の多様性中心の多目的リワードスケジューリングは、専門家の知識をEDAのフィードバックと統合し、3段階のフレームワークは限られたデータの有用性を最大化する。
- 参考スコア(独自算出の注目度): 10.116061321343404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Register Transfer Level (RTL) design translates high-level specifications into hardware using HDLs such as Verilog. Although LLM-based RTL generation is promising, the scarcity of functionally verifiable high-quality data limits both accuracy and diversity. Existing post-training typically produces a single HDL implementation per specification, lacking awareness of RTL variations needed for different design goals. We propose RTLSeek, a post-training paradigm that applies rule-based Diversity-Oriented Reinforcement Learning to improve RTL correctness and diversity. Our Diversity-Centric Multi-Objective Reward Scheduling integrates expert knowledge with EDA feedback, and a three-stage framework maximizes the utility of limited data. Experiments on the RTLLM benchmark show that RTLSeek surpasses prior methods, with ablation results confirming that encouraging broader design-space exploration improves RTL quality and achieves the principle of "the more generated, the better results." Implementation framework, including the dataset, source code, and model weights, is shown at https://anonymous.4open.science/r/DAC2026ID71-ACB4/.
- Abstract(参考訳): レジスタ転送レベル(RTL)の設計は、VerilogのようなHDLを使って高レベル仕様をハードウェアに変換する。
LLMベースのRTL生成は有望であるが、機能的に検証可能な高品質なデータの不足は精度と多様性の両方を制限している。
既存のポストトレーニングは通常、仕様ごとに単一のHDL実装を生成し、異なる設計目標に必要なRTLのバリエーションを認識していない。
RTLの正しさと多様性を改善するためにルールベースの多様性指向強化学習を適用した後学習パラダイムであるRTLSeekを提案する。
我々の多様性中心の多目的リワードスケジューリングは、専門家の知識をEDAのフィードバックと統合し、3段階のフレームワークは限られたデータの有用性を最大化する。
RTLLMベンチマークの実験では、RTLSeekが従来の手法を上回り、より広範な設計空間探索を奨励することでRTLの品質が向上し、「より生成され、より良い結果」の原則が達成されることを確認した。
データセット、ソースコード、モデルウェイトを含む実装フレームワークはhttps://anonymous.4open.science/r/DAC2026ID71-ACB4/で示されている。
関連論文リスト
- VeriDispatcher: Multi-Model Dispatching through Pre-Inference Difficulty Prediction for RTL Generation Optimization [15.38010259999926]
大規模言語モデル(LLM)は、RTL生成において強い性能を示すが、アーキテクチャとトレーニングの違いのため、異なるモデルが異なるタスクで優れている。
本稿では,マルチLLM RTL生成フレームワークであるVeriDispatcherを提案する。
論文 参考訳(メタデータ) (2025-11-27T20:45:26Z) - NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints [100.02131897927484]
本稿では,Multimodal Large Language Models(MLLM)のエンドツーエンドなネイティブトレーニングに焦点を当てる。
そこで我々は,NaViLと呼ばれるネイティブMLLMと,シンプルで費用対効果の高いレシピを組み合わせて提案する。
14のマルチモーダルベンチマークによる実験結果から,既存のMLLMに対するNaViLの競合性能が確認された。
論文 参考訳(メタデータ) (2025-10-09T17:59:37Z) - ScaleRTL: Scaling LLMs with Reasoning Data and Test-Time Compute for Accurate RTL Code Generation [4.965247405975508]
高品質な推論データとテスト時間計算の両方をスケールアップする RTL 符号化のための最初の推論 LLM である ScaleRTL を紹介する。
具体的には、56Kトークンを平均化して、RTLの豊富な知識をキャプチャする3.5Bトークンのデータセットを生成する。
このコーパス上で汎用推論モデルを微調整すると、深いRTL推論が可能なScaleRTLが得られる。
論文 参考訳(メタデータ) (2025-06-05T20:24:58Z) - RTL++: Graph-enhanced LLM for RTL Code Generation [0.0]
従来のレジスタ転送レベル (RTL) の設計手法は手作業で、時間がかかり、エラーを起こしやすい。
オープンソースモデルは代替手段を提供するが、品質や正確性に欠けることが多い。
本稿では RTL コード生成のための LLM 支援手法 RTL++ を提案する。
論文 参考訳(メタデータ) (2025-05-11T00:17:26Z) - RTLRepoCoder: Repository-Level RTL Code Completion through the Combination of Fine-Tuning and Retrieval Augmentation [6.428086269916113]
RTLRepoCoderは,レポジトリレベルのVerilogコード補完のために,特定の微調整および検索型拡張生成(RAG)を組み込んだ画期的なソリューションである。
提案手法は,GPT-4 および高度なドメイン固有 LLM の編集類似性および実行一致率を大幅に上回る,公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-04-11T09:04:50Z) - CoMMIT: Coordinated Multimodal Instruction Tuning [90.1532838391285]
マルチモーダル大言語モデル(MLLM)は一般に、バックボーンLLMと非テキスト入力モードの特徴エンコーダ間の協調学習を含む。
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
本稿では,学習のバランスを定量的に測定できるマルチモーダルバランス係数を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - OriGen:Enhancing RTL Code Generation with Code-to-Code Augmentation and Self-Reflection [54.775409528658486]
OriGenは、セルフリフレクション機能と新しいデータセット拡張方法論を組み込んだ、完全なオープンソースフレームワークである。
このアプローチでは,オープンソースのRTLコードデータセットの品質向上のために,コード-コード拡張技術を採用している。
論文 参考訳(メタデータ) (2024-07-23T07:22:25Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。