論文の概要: GRPO with State Mutations: Improving LLM-Based Hardware Test Plan Generation
- arxiv url: http://arxiv.org/abs/2601.07593v1
- Date: Mon, 12 Jan 2026 14:42:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.460428
- Title: GRPO with State Mutations: Improving LLM-Based Hardware Test Plan Generation
- Title(参考訳): GRPO with State Mutations: Improving LLM-based Hardware Test Plan Generation
- Authors: Dimple Vijay Kochar, Nathaniel Pinckney, Guan-Ting Liu, Chia-Tung Ho, Chenhui Deng, Haoxing Ren, Brucek Khailany,
- Abstract要約: 大規模言語モデル(LLM)は、RTLコード生成を約束するが、ハードウェア仕様を推論し、ターゲットとするテストプランを生成する能力は、まだ明らかにされていない。
本稿では,RTL検証刺激生成のためのLSM推論機能に関する最初の体系的研究について述べる。
我々のベンチマークでは、DeepSeek-R1やClaude-4.0-Sonnetといった最先端のモデルが、黄金のRTL設計をパスする刺激を生成する上で、わずか15.7-21.7%の成功率しか達成していないことが明らかになった。
- 参考スコア(独自算出の注目度): 12.849833498935057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: RTL design often relies heavily on ad-hoc testbench creation early in the design cycle. While large language models (LLMs) show promise for RTL code generation, their ability to reason about hardware specifications and generate targeted test plans remains largely unexplored. We present the first systematic study of LLM reasoning capabilities for RTL verification stimuli generation, establishing a two-stage framework that decomposes test plan generation from testbench execution. Our benchmark reveals that state-of-the-art models, including DeepSeek-R1 and Claude-4.0-Sonnet, achieve only 15.7-21.7% success rates on generating stimuli that pass golden RTL designs. To improve LLM generated stimuli, we develop a comprehensive training methodology combining supervised fine-tuning with a novel reinforcement learning approach, GRPO with State Mutation (GRPO-SMu), which enhances exploration by varying input mutations. Our approach leverages a tree-based branching mutation strategy to construct training data comprising equivalent and mutated trees, moving beyond linear mutation approaches to provide rich learning signals. Training on this curated dataset, our 7B parameter model achieves a 33.3% golden test pass rate and a 13.9% mutation detection rate, representing a 17.6% absolute improvement over baseline and outperforming much larger general-purpose models. These results demonstrate that specialized training methodologies can significantly enhance LLM reasoning capabilities for hardware verification tasks, establishing a foundation for automated sub-unit testing in semiconductor design workflows.
- Abstract(参考訳): RTL設計は、設計サイクルの初期段階において、しばしばアドホックなテストベンチの作成に大きく依存する。
大規模言語モデル(LLM)は、RTLコード生成の約束を示すが、ハードウェア仕様を推論し、ターゲットとするテストプランを生成する能力は、まだ明らかにされていない。
本稿では,テストベンチ実行からテストプラン生成を分解する2段階のフレームワークを構築し,RTL検証刺激生成のためのLCM推論機能に関する最初の体系的研究を行う。
我々のベンチマークでは、DeepSeek-R1やClaude-4.0-Sonnetといった最先端のモデルが、黄金のRTL設計をパスする刺激を生成する上で、わずか15.7-21.7%の成功率しか達成していないことが明らかになった。
LLM生成刺激を改善するために、教師付き微調整と新しい強化学習手法、GRPOと状態突然変異(GRPO-SMu)を組み合わせた総合的な訓練手法を開発し、入力突然変異の変化による探索を強化する。
提案手法は,木をベースとした分岐突然変異戦略を利用して,等価木と変異木からなる学習データを構築し,線形突然変異アプローチを超えてリッチな学習信号を提供する。
このキュレートされたデータセットに基づいて、我々の7Bパラメーターモデルは、33.3%のゴールデンテストパス率と13.9%の突然変異検出率を達成する。
これらの結果から, ハードウェア検証タスクのLCM推論能力を大幅に向上させ, 半導体設計ワークフローにおけるサブユニット自動テストの基礎を築いた。
関連論文リスト
- SCRIBE: Structured Mid-Level Supervision for Tool-Using Language Models [10.04930078540686]
SCRIBEは、新しい中間レベルの抽象化に介入する強化学習フレームワークである。
さまざまな推論とツール使用ベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-01-07T03:49:48Z) - IaC Generation with LLMs: An Error Taxonomy and A Study on Configuration Knowledge Injection [1.565249083928955]
大規模言語モデル(LLM)は、現在、正しい意図に沿ったインフラストラクチャ・アズ・コード(IaC)を生成する上で、低い成功率を示している。
本研究では, LLM を用いた IaC 生成法, 特にTerraform について検討した。
論文 参考訳(メタデータ) (2025-12-16T14:58:00Z) - Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training [121.5858973157225]
本研究では,長期強化学習が多種多様な推論領域にまたがる小言語モデルに及ぼす影響について検討する。
我々は,長期的パフォーマンス向上の鍵となる重要な要素として,制御KL正規化,クリッピング率,定期参照ポリシーリセットを導入する。
私たちのモデルは、数学の+14.7%、コーディングの+13.9%、論理パズルの+54.8%など、強力なベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-07-16T17:59:24Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - ReVeal: Self-Evolving Code Agents via Reliable Self-Verification [11.875519107421312]
自己検証とツールベースの評価を通じてコード生成を進化させる強化学習フレームワークであるReVealを紹介する。
推論において、この強化された自己検証により、3つしかトレーニングされていないLiveCodeBenchでは、自己構築されたテストとツールフィードバックを使用して、20ターン以上のコードを継続的に進化させることができる。
これらの調査結果は、RLトレーニングとテストタイムスケーリングのためのスケーラブルなパラダイムとしてのReVealの約束を強調し、より堅牢で自律的なAIエージェントへの道を開いた。
論文 参考訳(メタデータ) (2025-06-13T03:41:04Z) - EvoGPT: Enhancing Test Suite Robustness via LLM-Based Generation and Genetic Optimization [11.050047263054985]
大規模言語モデル(LLM)は、最近、自動ユニットテスト生成のための有望なツールとして登場した。
我々は,LLMベースのテスト生成と進化的検索技術を統合したEvoGPTというハイブリッドフレームワークを導入し,多種多様な欠陥検出ユニットテストを作成する。
論文 参考訳(メタデータ) (2025-05-18T13:48:53Z) - LLM-Guided Evolution: An Autonomous Model Optimization for Object Detection [0.0]
機械学習では、ニューラルネットワークサーチ(NAS)はモデル設計のドメイン知識と、有望なパフォーマンスを達成するために大量の試行錯誤を必要とする。
Large Language Model (LLM)-Guided Evolution (GE)フレームワークは、CIFARデータ上の画像分類アルゴリズムのモデルソースコードを直接修正するためにLLMを組み込むことによって、このアプローチを変革した。
LLM-GEは平均平均精度を92.5%から94.5%に向上させるなど,大幅な性能向上を図った。
論文 参考訳(メタデータ) (2025-04-03T05:06:06Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。