論文の概要: Trace2Skill: Verifier-Guided Skill Evolution for Long-Context EDA Agents
- arxiv url: http://arxiv.org/abs/2605.21810v1
- Date: Wed, 20 May 2026 23:10:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.500165
- Title: Trace2Skill: Verifier-Guided Skill Evolution for Long-Context EDA Agents
- Title(参考訳): Trace2Skill: 長期EDAエージェントのための検証ガイド型スキル進化
- Authors: Zijian Du, Nathaniel Pinckney,
- Abstract要約: テスト時間スケーリングフレームワークであるTrace2Skillを提案する。
新しいモデルをトレーニングしたり、より多くの候補ソリューションをサンプリングする代わりに、Trace2Skillはエージェントの自然言語スキルを進化可能なポリシーとして扱う。
成功と失敗モードのために繰り返しロールアウトトレースをマイニングし、それらを密集した診断やオラクルのレッスンに変換し、オラクル、ミューテータ、セレクタループを使用してタスク固有のスキルを生成する。
- 参考スコア(独自算出の注目度): 0.3733676450456031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Complex Verilog Design Problems (CVDP) challenge hardware LLM agents because solving them requires localizing verifier-relevant RTL, testbenches, include paths, and build dependencies inside large repository snapshots, making precise edits, and recovering from sparse hidden-verifier failures. We present Trace2Skill, a test-time scaling framework that improves a hardware agent without RTL-specialized model fine-tuning. Rather than training a new model or only sampling more candidate solutions, Trace2Skill treats the agent's natural-language skill as an evolvable policy. It mines repeated rollout traces for success and failure modes, converts them into dense diagnostics and oracle lessons, and uses an oracle, mutator, and selector loop to produce task-specific skills that guide later search, editing, validation, and recovery. Because final pass/fail labels are often too coarse for hard failures, Trace2Skill also supports bounded runtime dense verifier feedback that returns sanitized functional observations while keeping hidden harnesses and reference solutions inaccessible to the agent. This feedback helps guide skill evolution and agent execution by connecting skill text, verifier evidence, and downstream behavior. Across hard CVDP tasks that defeat the seed CVDP agent, including tasks that also defeat frontier coding agents, Trace2Skill with dense verifier feedback substantially improves task pass rates and produces breakthrough passes on previously unsolved tasks, without requiring high-quality fine-tuning data, specialized RTL model training, or model weight updates. The same framework provides a general test-time scaling strategy that can extend beyond digital design to other verifiable EDA tasks.
- Abstract(参考訳): 複雑なVerilog Design Problems (CVDP) は、検証関連RTL、テストベンチ、パスを含む、大規模なリポジトリスナップショット内の依存関係のローカライズ、正確な編集、疎結合の検証エラーからの回復を必要とするため、ハードウェアLLMエージェントに挑戦する。
テスト時間スケーリングフレームワークであるTrace2Skillを提案する。
新しいモデルをトレーニングしたり、より多くの候補ソリューションをサンプリングする代わりに、Trace2Skillはエージェントの自然言語スキルを進化可能なポリシーとして扱う。
成功と失敗モードのために繰り返しロールアウトトレースをマイニングし、それらを密集した診断やオラクルのレッスンに変換し、オラクル、ミュータ、セレクタループを使用して、後の検索、編集、バリデーション、リカバリをガイドするタスク固有のスキルを生成する。
最終パス/フェイルラベルはハード障害には大きすぎることが多いため、Trace2Skillは、隠されたハーネスと参照ソリューションをエージェントにアクセスできないままにして、正常化された機能観察を返却する、バウンダリされたランタイム高密度バリファイアフィードバックもサポートする。
このフィードバックは、スキルテキスト、バリデーションエビデンス、下流の振る舞いを接続することで、スキルの進化とエージェントの実行をガイドするのに役立つ。
フロンティアコーディングエージェントを倒すタスクを含む、シードCVDPエージェントを倒すハードなタスク全体において、密集した検証対象フィードバックを持つTrace2Skillは、高品質な微調整データ、特殊なRTLモデルトレーニング、モデルウェイト更新を必要とせず、タスクパス率を大幅に改善し、未解決タスクのブレークスルーパスを生成する。
同じフレームワークは、デジタル設計を越えて他の検証可能なEDAタスクにまで拡張可能な、一般的なテスト時のスケーリング戦略を提供する。
関連論文リスト
- CodeTracer: Towards Traceable Agent States [40.51936201889185]
異種実行アーティファクトを解析し,抽出器を進化させるトレースアーキテクチャであるCodeTracerを提案する。
CodeTracerは、永続的なメモリを持つ階層的なトレースツリーとして、完全な状態遷移履歴を再構築する。
障害発生元とその下流チェーンを特定するために、障害オンセットのローカライゼーションを実行する。
論文 参考訳(メタデータ) (2026-04-13T15:52:03Z) - Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills [21.971456179996093]
Trace2Skillは、人間の専門家がいかにスキルを作成できるかを反映するフレームワークです。
個々のトラジェクトリにシーケンシャルに反応する代わりに、Trace2Skillは並列なサブエージェント群を派遣して、さまざまな実行プールを分析する。
トラジェクトリ固有のレッスンを抽出し、階層的にそれらをインダクティブ推論を通じて統合され、コンフリクトフリーなスキルディレクトリに集約する。
論文 参考訳(メタデータ) (2026-03-26T08:26:38Z) - AgentDropoutV2: Optimizing Information Flow in Multi-Agent Systems via Test-Time Rectify-or-Reject Pruning [34.06688334066569]
AgentDropoutV2は、再トレーニングせずにMAS情報フローを動的に最適化するために設計されたテスト時間修正またはリジェクトプルーニングフレームワークである。
提案手法は, アクティブファイアウォールとして機能し, エージェントの出力を遮断し, 反復的に誤りを訂正する検索拡張を利用する。
広範なベンチマークによる実験結果から、AgentDropoutV2はMASのタスク性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2026-02-26T17:31:43Z) - GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL [64.8155693023222]
オープンソースのネイティブGUIエージェントは、長い水平ナビゲーションタスクのクローズドソースシステムに遅れを取っている。
このギャップは、高品質でアクション整合性のある推論データが不足していることに起因している。
GUI-Libraは、これらの課題に対処する調整されたトレーニングレシピです。
論文 参考訳(メタデータ) (2026-02-25T18:34:57Z) - ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration [68.89572566071575]
ETAgentはエージェントのツール使用行動を調整するためのトレーニングフレームワークである。
過誤行動パターンを最適行動に段階的に校正するように設計されている。
論文 参考訳(メタデータ) (2026-01-11T11:05:26Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。