論文の概要: Alpha-RTL: Test-Time Training for RTL Hardware Optimization
- arxiv url: http://arxiv.org/abs/2606.05253v1
- Date: Wed, 03 Jun 2026 14:51:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.283944
- Title: Alpha-RTL: Test-Time Training for RTL Hardware Optimization
- Title(参考訳): Alpha-RTL: RTLハードウェア最適化のためのテスト時間トレーニング
- Authors: Peilong Zhou, Zhirong Chen, Cangyuan Li, Haoyu Gao, Kaiyan Chang, Ziming Qu, Ying Wang,
- Abstract要約: 大規模言語モデル(LLM)は、機能的に正しいレジスタ・トランスファー・レベル(RTL)のハードウェア設計を生成することへの期待が高まっている。
近年のシステムは、構文、シミュレーション、PPA報酬によるEDA統合強化学習によってさらに改善されている。
我々は,TL最適化のためのLLMポリシーとEDAパイプラインのループを閉じる,設計毎のテスト時間トレーニングフレームワークTTT-RTLを提案する。
- 参考スコア(独自算出の注目度): 5.604484678527336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown increasing promise in generating functionally correct register-transfer-level (RTL) hardware designs. Recent systems improve further through EDA-integrated reinforcement learning with syntax, simulation, and PPA rewards, but train a general RTL generator before deployment while test-time approaches search with a frozen policy. We instead perform reinforcement learning at test time, allowing the LLM policy to adapt to executable EDA feedback for the specific RTL problem at hand. We propose TTT-RTL, to our knowledge the first per-design test-time training framework that closes the loop between an LLM policy and an EDA pipeline for RTL optimization. TTT-RTL samples candidate implementations, verifies them through syntax checking and simulation, scores valid designs using synthesis-derived PPA product, reuses high-reward variants through a PUCT-indexed design-state pool, and updates the policy with an entropic policy-gradient objective. To stabilize policy updates under sparse or plateaued rewards, we introduce an adaptive KL-budget controller that adjusts the entropy constraint using reference KL, effective sample size, and reward saturation signals. On RTLLM v2.0 under Nangate 45nm, TTT-RTL reduces the geometric-mean PPA product by 65.1% over the reference, outperforming the strongest published frozen-policy agent baseline at 26.1%. On an industrial XuanTie C910 FPU leading-zero-anticipation unit under Sky130, TTT-RTL achieves a 59.4% ADP reduction, and ablations confirm that policy adaptation, state reuse, and KL-budget control each contribute. These results suggest that test-time training with executable EDA feedback can move LLM-based RTL generation beyond functional correctness toward physically optimized hardware.
- Abstract(参考訳): 大規模言語モデル(LLM)は、機能的に正しいレジスタ・トランスファー・レベル(RTL)のハードウェア設計を生成することへの期待が高まっている。
近年のシステムでは, 構文, シミュレーション, PPA報酬によるEDA統合強化学習によってさらに改善されているが, テスト時間が凍結ポリシによる探索に近づくと, 展開前に一般的なRTLジェネレータを訓練する。
代わりに、テスト時に強化学習を行い、LLMポリシーが手元にある特定のRTL問題に対して実行可能なEDAフィードバックに適応できるようにする。
我々は,TL最適化のためのLLMポリシーとEDAパイプラインのループを閉じる,設計毎のテスト時間トレーニングフレームワークTTT-RTLを提案する。
TTT-RTLは、候補実装をサンプリングし、構文チェックとシミュレーションを通じて検証し、合成由来のPPA製品を使用して有効な設計をスコアし、PUCTでインデックスした設計状態プールを通じて高次変種を再利用し、エントロピックポリシーの段階的な目的でポリシーを更新する。
そこで本研究では, 基準KL, 有効サンプルサイズ, 報酬飽和信号を用いて, エントロピー制約を調整する適応型KL予算制御器を導入する。
ナンゲート45nm下のRTLLM v2.0では、TTT-RTLは幾何学的平均のPAA積を65.1%削減し、26.1%という最強のフリーズ・ポリス・エージェント・ベースラインを上回っている。
産業用XuanTie C910 FPU(スカイ130)では、TTT-RTLが59.4%のADP削減を実現し、政策適応、状態再利用、KL予算管理がそれぞれ貢献することを確認した。
これらの結果から,実行可能なEDAフィードバックによるテストタイムトレーニングにより,LLMベースのRTL生成を機能的正当性を超えて物理的に最適化されたハードウェアに移行することが示唆された。
関連論文リスト
- CASS-RTL: Correctness-Aware Subspace Steering for RTL Generation with LLMs [0.0]
本研究は,LCMの正当性を考慮したコンポーネントの発見と活用を目的とした,一級フレームワークCASS-RTLを提案する。
We observed 10%-20% improve in pass@1/5/10 accuracy on VerilogEval and 5% improve on CVDP。
論文 参考訳(メタデータ) (2026-06-04T04:02:51Z) - TTT-VLA: Test-Time Latent Prompt Optimization for Vision-Language-Action Models [49.463896453707065]
VLA(Vision-Language-Action)モデルは目覚ましい進歩を遂げているが、展開時の分散シフトには弱いままである。
近年のVLAモデルは、プロンプトが政策行動の効率的なインターフェースとして機能することを示唆しているが、既存のプロンプトベースのステアリングは通常、外部ガイダンスに依存している。
VLAのテストタイムトレーニング(TTT)は、プロンプトの最適化によって実現可能か?
我々は、遅延プロンプト最適化(LPO)に基づくテスト時間トレーニングフレームワークであるTTT-VLAでこの問題に対処する。
論文 参考訳(メタデータ) (2026-06-02T04:10:39Z) - HYPERHEURIST: A Simulated Annealing-Based Control Framework for LLM-Driven Code Generation in Optimized Hardware Design [0.0]
大規模言語モデル(LLM)は、レジスタ転送レベル(RTL)ハードウェア設計を作成するための有望な進歩を示している。
しかし、単一ショットのLLM生成は、機能的に正しい設計と電力効率の両方を一貫して作るのに苦労している。
本稿では,LLM生成RTLを最終設計ではなく中間候補として扱うシミュレーションアニーリングに基づく制御フレームワークであるHYPERHEURISTを提案する。
論文 参考訳(メタデータ) (2026-04-17T02:39:20Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - Succeed or Learn Slowly: Sample Efficient Off-Policy Reinforcement Learning for Mobile App Control [50.316067647636196]
本稿では,モバイルアプリ制御タスクで評価された新規な非政治強化学習アルゴリズムであるSucceed or Learn Slowly (SoLS)を紹介する。
SoLSは、ユーザーインターフェースナビゲーションのための微調整基礎モデルにおいて、非政治的アクター-批判的アプローチを修正することで、サンプル効率を改善する。
我々は、成功した対話から学習を優先するSTR(Success Transition Replay)でSOLSを増強する。
論文 参考訳(メタデータ) (2025-09-01T18:55:27Z) - ChipSeek-R1: Generating Human-Surpassing RTL with LLM via Hierarchical Reward-Driven Reinforcement Learning [32.11086992218369]
ChipSeek-R1は、大規模な言語モデルのための階層的な報酬駆動強化学習フレームワークである。
関数的正当性とPPA最適化の両方のRTLコードを生成する。
RTLLMのベンチマークでは、ChipSeek-R1はオリジナルの人間の書いたコードのPPAメトリクスを超える27のRTL設計を作成した。
論文 参考訳(メタデータ) (2025-07-07T08:08:20Z) - TuRTLe: A Unified Evaluation of LLMs for RTL Generation [0.6010802600885173]
本研究では,主要なRTL生成タスク間でLLMを評価するための統合評価フレームワークTuRTLeを提案する。
オープンLLMの多様なセットをベンチマークし、EDA固有のタスクの長所と短所を分析します。
以上の結果から,DeepSeek R1のような推論モデルの方が,複数の評価基準で常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-03-31T07:43:12Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。