論文の概要: Reward-Weighted On-Policy Distillation with an Open Property-Equivalence Verifier for NL-to-SVA Generation
- arxiv url: http://arxiv.org/abs/2605.13501v1
- Date: Wed, 13 May 2026 13:23:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.070258
- Title: Reward-Weighted On-Policy Distillation with an Open Property-Equivalence Verifier for NL-to-SVA Generation
- Title(参考訳): NL-SVA生成のためのオープンプロパティ等価検証器を用いた逆加重オンポリシィ蒸留
- Authors: Qingyun Zou, Yingze Li, Tianen Liu, Bingsheng He, Weng-Fai Wong,
- Abstract要約: 全体として強く見えるモデルは依然として崩壊し続けており、有界遅延とライブネスの仕様にいくつかの意味を持つテンプレートが存在している。
emphReward-Weighted On-Policy Distillation (RWOPD)を紹介する。
RWOPDは、CodeV-SVA-14BをQwen2.5-Coder-7B-Instructの学生に蒸留し、NL2SVA-HumanとNL2SVA-Machineのパス@1、pass@5、pass@10にまたがって技術の新たな状態を設定する。
- 参考スコア(独自算出の注目度): 32.565167163172745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based generation of SystemVerilog Assertions (SVA) is often reported as nearing saturation, with the strongest specialized model reaching ${\sim}76\%$ accuracy on NL2SVA-Human. We show that this aggregate hides a temporal gap: models that appear strong overall still collapse to a few implication templates on bounded-delay and liveness specifications. The core issue is that the dominant recipe, supervised fine-tuning on NL/SVA pairs, optimizes token-level mimicry rather than the \emph{property equivalence} that defines SVA correctness. We introduce \emph{Reward-Weighted On-Policy Distillation} (RWOPD), an on-policy distillation method that samples student rollouts, scores them with an open SymbiYosys+Z3 Property-Equivalence Checker (PEC), and applies a verifier-reward-weighted forward-KL gradient from a frozen 14B teacher on verifier-passable rollouts. This keeps the supervision dense at every response token while grounding both selection and loss weight in property-equivalent behavior. RWOPD distills CodeV-SVA-14B into a Qwen2.5-Coder-7B-Instruct student that sets a new state of the art on NL2SVA-Human and NL2SVA-Machine across pass@1, pass@5, and pass@10, surpassing both specialized prior SOTA models and 671B general-purpose baselines.
- Abstract(参考訳): LLMをベースとしたSystemVerilog Assertions (SVA) の生成は、NL2SVA-Human上で${\sim}76\%の精度に到達した最強の特殊モデルにより、ほぼ飽和状態であるとしばしば報告されている。
この集合が時間的ギャップを隠していることを示す: 強い全体像を持つモデルは依然として崩壊し続けており、有界遅延とライブネスの仕様にいくつかの意味を持つテンプレートが存在している。
中心的な問題は、NL/SVAペアの微調整を監督する支配的なレシピが、SVAの正しさを定義する \emph{property equivalence} よりもトークンレベルの模倣を最適化することである。
学生のロールアウトを抽出し,オープンなSymbiYosys+Z3 Property-Equivalence Checker (PEC) で評価し, 冷凍14B教師による検証器逆重化フォワードKL勾配を適用した。
これは、プロパティ等価な振る舞いにおいて、選択と損失重みの両方を基礎にして、すべての応答トークンに監督を密に保ちます。
RWOPDはCodeV-SVA-14BをQwen2.5-Coder-7B-Instructの学生に蒸留し、NL2SVA-HumanとNL2SVA-Machineをpass@1、pass@5、pass@10にまたがって新しい最先端技術を設定する。
関連論文リスト
- Verifier-Free RL for LLMs via Intrinsic Gradient-Norm Reward [69.99652051809737]
本研究では,検証自由な内在性勾配項再帰(VIGOR)を提案する。
VIGORはポリシーモデルのみを使用する単純な報酬です。
数学データのみに基づいてトレーニングされた場合、コードベンチマークへのクロスドメイン転送を示す。
論文 参考訳(メタデータ) (2026-05-11T03:15:37Z) - PAINT: Partial-Solution Adaptive Interpolated Training for Self-Distilled Reasoners [9.324642081509756]
大規模言語モデル(LLM)推論には、モデル自身のテスト時間状態とトークンレベルの情報の両方に整合した監視が必要である。
近年の独占型自己蒸留は,同じモデルによる学生のロールアウトを,検証済みのソリューションコンテキスト下で評価することによって中等地を探索している。
ロールアウト-参照重なりに応じて検証された解を隠蔽し、エントロピー-ミスマッチトークンのスパースセットに小さなエネルギー空間を適用したPAINTを提案する。
論文 参考訳(メタデータ) (2026-04-29T11:56:07Z) - Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision [50.61441331643804]
強化学習(Reinforcement Learning、RLVR)は、広く適用可能で強力であるが、訓練中に緩やかな監督しか提供しない二進的な報酬に依存している。
蒸留は、一般的に外部の教師や高品質なデモンストレーションを使って得られる、密集したトークンレベルの監督を提供する。
自己蒸留ゼロ(SD-Zero)は,RLよりもかなり訓練効率が高く,外部教師や高品質な実演を必要としない手法である。
論文 参考訳(メタデータ) (2026-04-13T19:46:55Z) - Overconfident Errors Need Stronger Correction: Asymmetric Confidence Penalties for Reinforcement Learning [17.384089089363382]
既存の手法が見落としている根本原因を同定する。
現在のアプローチでは、グループ内のすべての誤ったロールアウトを同一に扱う。
非対称信頼度を考慮した誤り罰(ACE)を提案する。
論文 参考訳(メタデータ) (2026-02-24T22:46:43Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning [37.13807960501503]
検証可能な報酬を伴う強化学習(RLVR)は、言語モデル(LM)のトレーニングに有望なアプローチである
我々は学習信号を正しい応答の強化と正負の正負の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の
我々は、NSRが不正確な世代を抑え、確率質量を他の可算候補に向けて再分配することで、モデルの以前の信念に導かれることを示す。
論文 参考訳(メタデータ) (2025-06-02T06:10:54Z) - FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [68.44043212834204]
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
論文 参考訳(メタデータ) (2025-05-19T07:32:56Z) - q-VAE for Disentangled Representation Learning and Latent Dynamical
Systems [8.071506311915396]
q-VAEと呼ばれるTsallis統計から導出される変分オートエンコーダ(VAE)を提案する。
提案手法では,サンプルデータに隠された潜伏空間を統計的に抽出するために標準VAEを用いる。
論文 参考訳(メタデータ) (2020-03-04T01:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。