論文の概要: TB or Not TB: Coverage-Driven Direct Preference Optimization for Verilog Stimulus Generation
- arxiv url: http://arxiv.org/abs/2511.15767v1
- Date: Wed, 19 Nov 2025 17:23:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.327221
- Title: TB or Not TB: Coverage-Driven Direct Preference Optimization for Verilog Stimulus Generation
- Title(参考訳): TBかTBか:Verilog刺激生成のためのカバレッジ駆動型直接選好最適化
- Authors: Bardia Nadimi, Khashayar Filom, Deming Chen, Hao Zheng,
- Abstract要約: 大規模言語モデル(LLM)を用いた自動刺激生成のためのフレームワークTBかTBかを提案する。
提案したCD-DPO法は,定量的カバレッジフィードバックを直接最適化目標に統合し,検証カバレッジを最大化する刺激生成に向けてモデルを導出する。
CVDP CID12ベンチマークの実験では、TBがオープンソースと商用の両方のベースラインを上回っ、コードカバレッジが77.27%向上した。
- 参考スコア(独自算出の注目度): 11.265965868875716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid advancement of Large Language Models (LLMs), there is growing interest in applying them to hardware design and verification. Among these stages, design verification remains the most time-consuming and resource-intensive phase, where generating effective stimuli for the design under test (DUT) is both critical and labor-intensive. We present {\it TB or not TB}, a framework for automated stimulus generation using LLMs fine-tuned through Coverage-Driven Direct Preference Optimization (CD-DPO). To enable preference-based training, we introduce PairaNet, a dataset derived from PyraNet that pairs high- and low-quality testbenches labeled using simulation-derived coverage metrics. The proposed CD-DPO method integrates quantitative coverage feedback directly into the optimization objective, guiding the model toward generating stimuli that maximize verification coverage. Experiments on the CVDP CID12 benchmark show that {\it TB or not TB} outperforms both open-source and commercial baselines, achieving up to 77.27\% improvement in code coverage, demonstrating the effectiveness of Coverage-driven preference optimization for LLM-based hardware verification.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩により、ハードウェア設計や検証に適用することへの関心が高まっている。
これらの段階の中で、設計検証は最も時間がかかり、資源集約的な段階であり、テスト中の設計(DUT)に効果的な刺激を発生させるのは、臨界かつ労働集約的な段階である。
本稿では,CD-DPO(Coverage-Driven Direct Preference Optimization)によって微調整されたLCMを用いた自動刺激生成のフレームワークであるTBを提示する。
選好ベースのトレーニングを実現するために、シミュレーションによるカバレッジメトリクスを用いてラベル付けされた高品質と低品質のテストベンチをペアリングするPiraNetから派生したデータセットPairaNetを紹介した。
提案したCD-DPO法は,定量的カバレッジフィードバックを直接最適化目標に統合し,検証カバレッジを最大化する刺激生成に向けてモデルを導出する。
CVDP CID12ベンチマークの実験では、TBがオープンソースと商用の両方のベースラインを上回り、コードカバレッジが77.27倍に向上し、LLMベースのハードウェア検証におけるカバレッジ駆動の優先最適化の有効性が示された。
関連論文リスト
- Adaptive Preference Optimization with Uncertainty-aware Utility Anchor [33.74005997646761]
オフライン優先最適化手法は、大規模言語モデル(LLM)のアライメントに効率的である。
提案手法は, 嗜好データアノテーションから生じる不確実性を推定するアンカー機能を導入し, オフラインの選好最適化手法の一般的なフレームワークを提案する。
本手法は,データ不備のシナリオにおいてもトレーニングが可能であり,データ利用効率を大幅に向上させる。
論文 参考訳(メタデータ) (2025-09-03T10:20:08Z) - A Novel Self-Evolution Framework for Large Language Models [18.62332474172811]
本稿では,ユーザの嗜好適応とドメイン固有能力を協調的に最適化する新しいDual-Phase Self-Evolutionフレームワークを提案する。
一般的なNLPベンチマークと長期対話タスクによる実験は、DPSEが常にSupervised Fine-Tuning、Preference Optimization、Memory-Augmented baselinesより優れていることを示している。
論文 参考訳(メタデータ) (2025-07-21T06:30:39Z) - Leveraging Robust Optimization for LLM Alignment under Distribution Shifts [51.74394601039711]
人間の値に整合した出力を生成するために、大規模言語モデルを操る上で、優先順位アライメント手法はますます重要になっている。
このようなシフトに拘わらず、好みのアライメントを改善する新しい分布対応最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-08T09:14:38Z) - Preference Optimization via Contrastive Divergence: Your Reward Model is Secretly an NLL Estimator [32.05337749590184]
本稿では,非推奨の完了を効果的にサンプリングするための理論的ガイダンスを提供する新しいPOフレームワークを開発する。
次に、サンプリング戦略としてコントラスト分散(CD)を選択し、新しいMC-POアルゴリズムを提案する。
OnMC-POは既存のSOTAベースラインより優れており、OnMC-POはさらなる改善をもたらす。
論文 参考訳(メタデータ) (2025-02-06T23:45:08Z) - Towards Improved Preference Optimization Pipeline: from Data Generation to Budget-Controlled Regularization [14.50339880957898]
我々は、嗜好データ生成と正規化の訓練技術について、より深く検討することで、嗜好最適化パイプラインの改善を目指している。
選好データ生成のために、ペアワイズ比較信号を用いて完了の選好ランキングを導出する反復的なペアワイズランキング機構を提案する。
正規化のトレーニングでは、LLMが好むサンプルの確率をわずかに減少させると、好みの最適化がよりよく収束する傾向が観察される。
論文 参考訳(メタデータ) (2024-11-07T23:03:11Z) - Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization [9.618391485742968]
反復的選好最適化は、最近、大規模言語モデル(LLM)のデファクトトレーニングパラダイムの1つになっている。
我々は、信頼性の高いフィードバックでLLMを自己進化させる不確実性のあるtextbfPreference textbfOptimizationフレームワークを提案する。
筆者らのフレームワークは,ノイズ問題を大幅に軽減し,反復的選好最適化の性能を向上させる。
論文 参考訳(メタデータ) (2024-09-17T14:05:58Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Double-Bounded Optimal Transport for Advanced Clustering and
Classification [58.237576976486544]
本稿では,2つの境界内での目標分布の制限を前提としたDB-OT(Douubly bounded Optimal Transport)を提案する。
提案手法は,テスト段階における改良された推論方式により,良好な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-01-21T07:43:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。