Fugu-MT 論文翻訳(概要): ChipSeek-R1: Generating Human-Surpassing RTL with LLM via Hierarchical Reward-Driven Reinforcement Learning

論文の概要: ChipSeek-R1: Generating Human-Surpassing RTL with LLM via Hierarchical Reward-Driven Reinforcement Learning

arxiv url: http://arxiv.org/abs/2507.04736v1
Date: Mon, 07 Jul 2025 08:08:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-08 15:46:35.319748
Title: ChipSeek-R1: Generating Human-Surpassing RTL with LLM via Hierarchical Reward-Driven Reinforcement Learning
Title（参考訳）: ChipSeek-R1:階層的リワード駆動強化学習によるLLMを用いたヒューマンサーパッシングRTLの生成
Authors: Zhirong Chen, Kaiyan Chang, Zhuolin Li, Xinyang He, Chujie Chen, Cangyuan Li, Mengdi Wang, Haobo Xu, Yinhe Han, Ying Wang,
Abstract要約: ChipSeek-R1は、大規模な言語モデルのための階層的な報酬駆動強化学習フレームワークである。関数的正当性とPPA最適化の両方のRTLコードを生成する。 RTLLMのベンチマークでは、ChipSeek-R1はオリジナルの人間の書いたコードのPPAメトリクスを超える27のRTL設計を作成した。
参考スコア（独自算出の注目度）: 32.11086992218369
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) show significant potential for automating Register-Transfer Level (RTL) code generation. However, current approaches face a critical challenge: they can not simultaneously optimize for functional correctness and hardware quality (Power, Performance, Area - PPA). Methods based on supervised fine-tuning often generate functionally correct but PPA-suboptimal code, lacking mechanisms to learn optimization principles. In contrast, post-processing techniques that attempt to improve PPA metrics after generation are often inefficient because they operate externally without updating the LLM's parameters, thus failing to enhance the model's intrinsic design capabilities. To bridge this gap, we introduce ChipSeek-R1, a hierarchical reward-driven reinforcement learning framework to train LLMs to generate RTL code that achieves both functional correctness and optimized PPA metrics. ChipSeek-R1 employs a hierarchical reward system, which incorporates direct feedback on syntax, functional correctness (from simulators) and PPA metrics (from synthesis tools) during reinforcement learning. This enables the model to learn complex hardware design trade-offs via trial-and-error, generating RTL code that is both functionally correct and PPA-optimized. Evaluating ChipSeek-R1 on standard benchmarks (VerilogEval, RTLLM), we achieve state-of-the-art results in functional correctness. Notably, on the RTLLM benchmark, ChipSeek-R1 generated 27 RTL designs surpassing the PPA metrics of the original human-written code. Our findings demonstrate the effectiveness of integrating toolchain feedback into LLM training and highlight the potential for reinforcement learning to enable automated generation of human-surpassing RTL code. We open-source our code in anonymous github.
Abstract（参考訳）: LLM(Large Language Models)は、レジスタ-トランスファーレベル(RTL)コード生成を自動化する重要な可能性を示す。機能的正しさとハードウェア品質(パワー、パフォーマンス、エリア - PPA)を同時に最適化することはできない。教師付き微調整に基づく手法はしばしば機能的に正しいが、最適化原理を学ぶためのメカニズムが欠如している。対照的に、生成後のPPAメトリクスを改善しようとする後処理技術は、LCMのパラメータを更新せずに外部で動作するため、モデル固有の設計能力を向上することができないため、しばしば非効率である。このギャップを埋めるために、LLMをトレーニングして機能的正当性と最適化されたPPAメトリクスの両方を達成するRTLコードを生成する階層的な報酬駆動強化学習フレームワークであるChipSeek-R1を紹介した。 ChipSeek-R1は階層的な報酬システムを採用しており、強化学習中に構文、機能的正しさ(シミュレータから)、PPAメトリクス(合成ツールから)を直接フィードバックする。これにより、モデルは試行錯誤によって複雑なハードウェア設計トレードオフを学習し、機能的に正しいかつPPA最適化されたRTLコードを生成することができる。標準ベンチマーク(VerilogEval, RTLLM)におけるChipSeek-R1の評価を行い, 機能的正当性を示す。注目すべきは、RTLLMベンチマークにおいて、ChipSeek-R1はオリジナルの人間の書いたコードのPPAメトリクスを超える27のRTL設計を生み出したことである。本研究は,LLMトレーニングにツールチェーンフィードバックを組み込むことの有効性を実証し,強化学習による自動RTLコード生成の可能性を強調した。コードを匿名のgithubでオープンソースにしています。

関連論文リスト

Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文参考訳（メタデータ） (2025-07-26T07:53:11Z)
VeriOpt: PPA-Aware High-Quality Verilog Generation via Multi-Role LLMs [41.94295877935867]
VeriOptは、ロールベースのプロンプトとPPA対応最適化を利用して、高品質で合成可能なVerilogを生成する新しいフレームワークである。私たちの研究は、正しさと品質の重大なギャップに対処することで、最先端のAI駆動型ハードウェア設計を前進させます。
論文参考訳（メタデータ） (2025-07-20T00:28:55Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
TuRTLe: A Unified Evaluation of LLMs for RTL Generation [0.6010802600885173]
本研究では,主要なRTL生成タスク間でLLMを評価するための統合評価フレームワークTuRTLeを提案する。オープンLLMの多様なセットをベンチマークし、EDA固有のタスクの長所と短所を分析します。以上の結果から,DeepSeek R1のような推論モデルの方が,複数の評価基準で常に優れていたことが示唆された。
論文参考訳（メタデータ） (2025-03-31T07:43:12Z)
Prompt engineering and framework: implementation to increase code reliability based guideline for LLMs [0.0]
生成されたコードスニペットの品質と正確性を改善するために,プロンプトテンプレートを導入する。提案手法はPass@kメートル法においてゼロショット法やチェーン・オブ・ソート法(CoT)法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-03-19T18:33:08Z)
Training of Scaffolded Language Models with Language Supervision: A Survey [62.59629932720519]
本調査は,戦後のLM周辺における新規構造物の設計と最適化に関する文献を整理した。本稿では,この階層構造を足場型LMと呼び,ツールを用いた多段階プロセスに統合されたLMに焦点を当てる。
論文参考訳（メタデータ） (2024-10-21T18:06:25Z)
AIvril: AI-Driven RTL Generation With Verification In-The-Loop [0.7831852829409273]
LLM(Large Language Models)は、複雑な自然言語処理タスクを実行できる計算モデルである。本稿では,RTL対応LLMの精度と信頼性を高めるためのフレームワークであるAIvrilを紹介する。
論文参考訳（メタデータ） (2024-09-03T15:07:11Z)
REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文参考訳（メタデータ） (2024-04-25T17:20:45Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
Make Every Move Count: LLM-based High-Quality RTL Code Generation Using MCTS [20.135906487081453]
本稿では,モンテカルロ木探索をベースとした自動トランスフォーマー復号アルゴリズムを提案する。最先端のLLM(16ビット加算器)が生成する最大の設計のために,本技術は面積遅延生成物において31.8%の改善を達成できる。
論文参考訳（メタデータ） (2024-02-05T18:47:04Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文参考訳（メタデータ） (2022-07-05T02:42:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。