論文の概要: From Procedural Skills to Strategy Genes: Towards Experience-Driven Test-Time Evolution
- arxiv url: http://arxiv.org/abs/2604.15097v1
- Date: Thu, 16 Apr 2026 14:55:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.961346
- Title: From Procedural Skills to Strategy Genes: Towards Experience-Driven Test-Time Evolution
- Title(参考訳): 手続き的スキルから戦略遺伝子へ - 経験駆動テストタイム進化に向けて
- Authors: Junjie Wang, Yiming Ren, Haoyang Zhang,
- Abstract要約: ドキュメント指向のSkillパッケージが不安定な制御を提供することがわかった。
コンパクトな遺伝子表現は、最も強い全体平均をもたらす。
CritPtでは、遺伝子進化型システムはペアベースモデルよりも9.1%から18.57%改善している。
- 参考スコア(独自算出の注目度): 13.818463201884045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This beta technical report asks how reusable experience should be represented so that it can function as effective test-time control and as a substrate for iterative evolution. We study this question in 4.590 controlled trials across 45 scientific code-solving scenarios. We find that documentation-oriented Skill packages provide unstable control: their useful signal is sparse, and expanding a compact experience object into a fuller documentation package often fails to help and can degrade the overall average. We further show that representation itself is a first-order factor. A compact Gene representation yields the strongest overall average, remains competitive under substantial structural perturbations, and outperforms matched-budget Skill fragments, while reattaching documentation-oriented material usually weakens rather than improves it. Beyond one-shot control, we show that Gene is also a better carrier for iterative experience accumulation: attached failure history is more effective in Gene than in Skill or freeform text, editable structure matters beyond content alone, and failure information is most useful when distilled into compact warnings rather than naively appended. On CritPt, gene-evolved systems improve over their paired base models from 9.1% to 18.57% and from 17.7% to 27.14%. These results suggest that the core problem in experience reuse is not how to supply more experience, but how to encode experience as a compact, control-oriented, evolution-ready object.
- Abstract(参考訳): このベータ技術レポートは、効率的なテストタイムコントロールや反復進化の基盤として機能できるように、再利用可能なエクスペリエンスをどのように表現すべきかを問うものだ。
本研究は,45の科学的コード解決シナリオを対象とした4.590の制御試験において行った。
ドキュメント指向のSkillパッケージは、不安定なコントロールを提供する。それらの有用なシグナルは、疎結合であり、コンパクトなエクスペリエンスオブジェクトをより完全なドキュメントパッケージに拡張することは、しばしば助けにならず、全体的な平均を低下させる。
さらに、表現自体が一階因子であることを示す。
コンパクトなジーン表現は、大きな構造的摂動の下で競争力を維持し、一致した予算のスキルの断片よりも優れ、ドキュメント指向の材料は改善するよりも弱くなる。
付加された障害履歴は、スキルやフリーフォームのテキストよりもGeneの方が効果的であり、編集可能な構造はコンテンツだけにとどまらず、失敗情報は、ナイーティブな付加ではなく、コンパクトな警告に蒸留するときに最も有用である。
CritPtでは、遺伝子進化型システムはペアベースモデルの9.1%から18.57%に改善され、17.7%から27.14%に改善された。
これらの結果は、体験の再利用における中核的な問題は、より多くの体験を提供する方法ではなく、コンパクトで制御指向で進化可能なオブジェクトとして体験をエンコードする方法であることを示している。
関連論文リスト
- STaR-DRO: Stateful Tsallis Reweighting for Group-Robust Structured Prediction [0.20165644958637055]
制御可能な推論と堅牢な微調整のための2部フレームワークを提案する。
まず、フォーマットのドリフト、ラベルの曖昧さ、エビデンス幻覚、メタデータ条件の混乱に対処するためのタスクに依存しないプロンプト戦略を導入する。
第2に,グループ不均一性のステートフルなロバスト最適化手法STaR-DROを導入する。
論文 参考訳(メタデータ) (2026-04-09T21:58:42Z) - Cog-DRIFT: Exploration on Adaptively Reformulated Instances Enables Learning from Hard Reasoning Problems [70.94268452442147]
検証可能な報酬(RLVR)からの強化学習はLLMの推論能力を改善した。
本稿では,タスク修正に基づくシンプルで効果的なソリューションを提案する。
本稿では,Cag-DRIFTについて紹介する。このフレームワークは改良された変種を構築し,適応的なカリキュラムに編成する。
論文 参考訳(メタデータ) (2026-04-06T15:38:38Z) - SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning [83.98129545309277]
生経験と政策改善のギャップを埋めるフレームワークであるSkillRLを提案する。
本手法では,階層型スキルライブラリであるSkillBankを構築するために,経験に基づく蒸留機構を導入する。
ALF、WebShop、および7つの検索強化タスクの実験結果は、SkillRLが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-02-09T03:17:17Z) - EvoSyn: Generalizable Evolutionary Data Synthesis for Verifiable Learning [63.03672166010434]
我々は、進化的、タスクに依存しない、戦略を導いた、実行可能検証可能なデータ合成フレームワークを紹介します。
問題、多様な候補解、検証成果物を共同で合成する。
これは、人間による注釈付きチェックと戦略によるチェックの合意を強制する一貫性に基づく評価器を通じて戦略を反復的に発見する。
論文 参考訳(メタデータ) (2025-10-20T11:56:35Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Vulnerability-Affected Versions Identification: How Far Are We? [10.839363179891551]
本研究は,脆弱性に影響を及ぼすバージョンを同定した最初の包括的実証研究である。
ツールの精度は45.0%を超えず、依存の制限、セマンティックな推論、厳密なマッチングロジックなどによる重要な課題がある。
本研究は,この重要な領域におけるツール開発,組み合わせ戦略,今後の研究の指針として,実用的な洞察を提供する。
論文 参考訳(メタデータ) (2025-09-04T04:31:22Z) - Agent KB: Leveraging Cross-Domain Experience for Agentic Problem Solving [62.71545696485824]
我々は,異種エージェントフレームワーク間のシームレスな体験共有を可能にするユニバーサルメモリ基盤であるAgent KBを紹介した。
Agent KBはトラジェクトリを構造化知識ベースに集約し、軽量APIを提供する。
我々は,GAIA,Humanity's Last Exam,GPQA,SWE-benchなどの主要フレームワークにまたがるエージェントを検証した。
論文 参考訳(メタデータ) (2025-07-08T17:59:22Z) - MuCoMiD: A Multitask Convolutional Learning Framework for miRNA-Disease
Association Prediction [0.4061135251278187]
本稿では, MuCoMiD と呼ぶ新しいマルチタスク畳み込み方式を提案する。
MuCoMiDは、4つの異種生物情報ソースからの知識を取り入れつつ、自動特徴抽出を可能にする。
我々は、標準ベンチマークデータセットに関する大規模な実験と、より大規模な独立したテストセットとケーススタディを構築した。
MuCoMiDは、HMDDv2.0とHMDDv3.0データセットで5倍のCV評価を少なくとも5%改善し、最先端のアプローチよりも、目に見えない病気や目に見えない病気を持つ大規模独立テストセットで少なくとも49%改善した。
論文 参考訳(メタデータ) (2021-08-08T10:01:46Z) - Enhanced Principal Component Analysis under A Collaborative-Robust
Framework [89.28334359066258]
重み学習とロバストな損失を非自明な方法で組み合わせる,一般的な協調ロバスト重み学習フレームワークを提案する。
提案されたフレームワークでは、トレーニング中の重要度を示す適切なサンプルの一部のみがアクティブになり、エラーが大きい他のサンプルは無視されません。
特に、不活性化試料の負の効果はロバスト損失関数によって軽減される。
論文 参考訳(メタデータ) (2021-03-22T15:17:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。