論文の概要: LLM4Cov: Execution-Aware Agentic Learning for High-coverage Testbench Generation
- arxiv url: http://arxiv.org/abs/2602.16953v1
- Date: Wed, 18 Feb 2026 23:36:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.519115
- Title: LLM4Cov: Execution-Aware Agentic Learning for High-coverage Testbench Generation
- Title(参考訳): LLM4Cov: 高カバレッジテストベンチ生成のための実行対応エージェント学習
- Authors: Hejia Zhang, Zhongming Yu, Chia-Tung Ho, Haoxing Ren, Brucek Khailany, Jishen Zhao,
- Abstract要約: 実行対応のLLMエージェントは、ツールフィードバックから学ぶための有望なパラダイムを提供するが、そのようなフィードバックは高価で入手が遅いことが多い。
決定論的評価器によって導かれるメモリレス状態遷移として検証をモデル化するオフラインエージェント学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.930725734080356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Execution-aware LLM agents offer a promising paradigm for learning from tool feedback, but such feedback is often expensive and slow to obtain, making online reinforcement learning (RL) impractical. High-coverage hardware verification exemplifies this challenge due to its reliance on industrial simulators and non-differentiable execution signals. We propose LLM4Cov, an offline agent-learning framework that models verification as memoryless state transitions guided by deterministic evaluators. Building on this formulation, we introduce execution-validated data curation, policy-aware agentic data synthesis, and worst-state-prioritized sampling to enable scalable learning under execution constraints. We further curate a reality-aligned benchmark adapted from an existing verification suite through a revised evaluation protocol. Using the proposed pipeline, a compact 4B-parameter model achieves 69.2% coverage pass rate under agentic evaluation, outperforming its teacher by 5.3% and demonstrating competitive performance against models an order of magnitude larger.
- Abstract(参考訳): 実行対応LLMエージェントは、ツールフィードバックから学ぶための有望なパラダイムを提供するが、そのようなフィードバックは高価で入手が遅いため、オンライン強化学習(RL)は実用的ではない。
高カバレッジハードウェア検証は、産業シミュレータや微分不可能な実行信号に依存しているため、この課題を実証している。
決定論的評価器によって導かれるメモリレス状態遷移として検証をモデル化するオフラインエージェント学習フレームワーク LLM4Cov を提案する。
この定式化に基づいて、実行検証データキュレーション、ポリシー対応エージェントデータ合成、最悪の状態優先サンプリングを導入し、実行制約下でのスケーラブルな学習を可能にする。
さらに、既存の検証スイートに適合した現実対応ベンチマークを、改訂された評価プロトコルによりキュレートする。
提案したパイプラインを用いて, エージェント評価で69.2%のカバレッジパス率を達成し, 教師を5.3%上回り, モデルに対する競争性能を桁違いに向上させた。
関連論文リスト
- Curate-Train-Refine: A Closed-Loop Agentic Framework for Zero Shot Classification [2.1937565888932653]
大規模言語モデル(LLM)と高容量エンコーダは、ゼロと少数ショットの分類が進んでいるが、その推論コストと遅延は実際のデプロイを制限している。
LLMから動的に生成した教師による軽量テキスト分類器の訓練を提案する。
提案手法は, LLMがトレーニングデータをキュレートし, モデルの成功と失敗を分析し, 対象とするサンプルを合成し, 観測誤差に対処する反復的エージェントループを用いる。
論文 参考訳(メタデータ) (2026-01-23T08:04:09Z) - Fill in the Blanks: Accelerating Q-Learning with a Handful of Demonstrations in Sparse Reward Settings [4.446853669417819]
スパース・リワード環境における強化学習(RL)は、情報的フィードバックが欠如しているため、依然として重要な課題である。
本稿では,RLエージェントの値関数を初期化するために,少数の成功例を用いた簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2025-10-28T14:01:13Z) - Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [65.18157595903124]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-11-23T08:06:06Z) - Improving Retrieval Augmented Language Model with Self-Reasoning [20.715106330314605]
本稿では,ALMの信頼性とトレーサビリティ向上を目的とした,新たな自己推論フレームワークを提案する。
このフレームワークは、関連性を認識したプロセス、エビデンスを認識した選択プロセス、軌跡解析プロセスの3つのプロセスで自己推論軌道を構築することを含む。
提案手法の優位性を示すため,4つの公開データセットにまたがるフレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-07-29T09:05:10Z) - ITERTL: An Iterative Framework for Fine-tuning LLMs for RTL Code Generation [9.409062607311528]
大規模言語モデル(LLM)は優れた性能を示しており、研究者はレジスタ転送レベル(RTL)コード生成の自動化に利用することを模索している。
RTL生成のためのファインチューンLSMへの既存のアプローチは、通常、固定データセット上で実行される。
ITERTLと呼ばれる反復的なトレーニングパラダイムを導入し、これらの問題を緩和する。
我々のモデルは GPT4 と State-of-the-art (SOTA) のオープンソースモデルより優れており、VerilogEval- Human ベンチマークでは 53.8% のパス@1 レートを達成した。
論文 参考訳(メタデータ) (2024-06-28T01:44:57Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。