論文の概要: Ratchet: A Minimal Hygiene Recipe for Self-Evolving LLM Agents
- arxiv url: http://arxiv.org/abs/2605.22148v1
- Date: Thu, 21 May 2026 08:20:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.158518
- Title: Ratchet: A Minimal Hygiene Recipe for Self-Evolving LLM Agents
- Title(参考訳): ラチェット:自己進化型LSM剤のための最小の衛生剤
- Authors: Xing Zhang, Yanwei Cui, Guanghui Wang, Ziyuan Li, Wei Qiu, Bing Zhu, Peiyang He,
- Abstract要約: textbfRatchetは、凍結したLLMが自身の自然言語スキルを書き、検索し、キュレートし、リタイアする単一エージェントループである。
Ratchetは4つの候補衛生メカニズムを統合している: 結果駆動型退職、有界アクティブキャップ、メタスキルオーサリングガイダンス、パターン正準化。
- 参考スコア(独自算出の注目度): 9.989306175511238
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Self-evolving skill libraries, pioneered by Voyager, let frozen LLM agents accumulate reusable knowledge without weight updates, yet recent evaluation shows that LLM-authored skills deliver $+0.0$pp over no-skill baselines while human-curated ones deliver $+16.2$pp: the bottleneck is not skill authoring but lifecycle management. We introduce \textbf{Ratchet}, a single-agent loop in which a frozen LLM writes, retrieves, curates, and retires its own natural-language skills. Ratchet integrates four candidate hygiene mechanisms: outcome-driven retirement, a bounded active-cap, meta-skill authoring guidance, and pattern canonicalisation. On MBPP+ hard-100 with Claude Opus 4.7, Ratchet lifts held-out pass@1 from a $0.258 \pm 0.047$ baseline to a late-window rolling mean of $0.584$ (peak $0.658 \pm 0.042$) across 100 rounds and 3 seeds, a $+0.328 \pm 0.018$ rolling-mean gain where the no-skill control drifts at $+0.002 \pm 0.005$; the same recipe transfers to an agentic solver on SWE-bench Verified ($+0.22$ peak lift over 20 rounds). Eight ablations (A1--A8) reveal that the minimal working recipe is smaller than our design suggests: retirement and the meta-skill authoring prior are load-bearing, while explicit deduplication (canonicalisation, cover-guard) is subsumed by the meta-skill itself. A non-divergence proposition shows that bounded cap and retirement threshold together prevent expected performance from drifting below the no-skills floor.
- Abstract(参考訳): Voyagerが先駆けて開発した自己進化型スキルライブラリは、凍結したLLMエージェントがウェイトアップデートなしで再利用可能な知識を蓄積することを可能にするが、最近の評価では、LLMが認可したスキルは非スキルベースラインで$0.0$pp、人為的なスキルは$+16.2$pp、ボトルネックはスキルオーサリングではなくライフサイクル管理である。
凍結したLLMが書き、検索し、キュレートし、自身の自然言語スキルを引退する単一エージェントループである。
Ratchetは4つの候補衛生メカニズムを統合している: 結果駆動型退職、有界アクティブキャップ、メタスキルオーサリングガイダンス、パターン正準化。
MBPP+ hard-100 with Claude Opus 4.7, Ratchet lifts held-out pass@1 from a $0.258 \pm 0.047$ baseline from a late-window rolling mean of $0.584$ (peak $0.658 \pm 0.042$) across 100 rounds and 3 seeds, a $+0.328 \pm 0.018$ rolling-mean gain where the no-skill control drifts at $+0.002 \pm 0.005$; the recipe transfers to a agenticsolvr on SWE-bench Verified (+0.22$ peak lift over 20 rounds)。
8つのエイブレーション (A1--A8) は、最小限の作業レシピが、我々の設計より小さいことを示している: 退職とメタスキルの著者は、ロードベアリングであり、明示的な重複(カノニカル化、カバーガード)は、メタスキル自体によって仮定される。
非分岐命題は、有界キャップとリタイアしきい値が相まって、予想性能がノスキルフロアの下を漂うのを防ぐことを示している。
関連論文リスト
- When Skills Don't Help: A Negative Result on Procedural Knowledge for Tool-Grounded Agents in Offensive Cybersecurity [1.3591163361204688]
スキルとは、推論時にエージェントにロードされる手続き的な知識のパッケージである。
様々な領域で平均16.2%の割合でタスクパス率を改善することが広く報告されている。
しかし、同じベンチマークでは、スキルの導入時に負のデルタに苦しむ84のタスクのうち16が広範囲に分散している。
論文 参考訳(メタデータ) (2026-05-19T15:48:35Z) - Library Drift: Diagnosing and Fixing a Silent Failure Mode in Self-Evolving LLM Skill Libraries [9.989306175511238]
自己進化型スキルライブラリは、サイレントな失敗モードに直面します — 成果駆動型ライフサイクル管理のないスキル蓄積は、検索の劣化、偽陽性注入、パフォーマンスの停滞を引き起こします。
最近の評価では、症状-LLMによるスキルは+0.0pp、人為的なスキルは+16.2pp(Bench)である。
論文 参考訳(メタデータ) (2026-05-19T09:19:56Z) - Representation Without Reward: A JEPA Audit for LLM Fine-Tuning [1.2691047660244335]
JEPA(Joint-embedding predictive Architectures)は、モデルが観測された出力よりも遅延表現を予測できるように訓練された時に、より有用な抽象化を学ぶべきであることを提案している。
自己回帰型言語モデルの微調整には、この原理はより厳密な要件を必要とする。
我々は、Llama-3.2-1B-Instruct LoRA を用いて、自然言語からレジェックス生成におけるその要件を検証した。
論文 参考訳(メタデータ) (2026-05-14T20:27:32Z) - Attributing Emergence in Million-Agent Systems [68.53670424791751]
大規模言語モデル(LLM)は、個々のエージェントにおける人間のような推論と意思決定をシミュレートすることができる。
このような研究は、個々のエージェントにマクロな出現をもたらす必要がある。
Aumann--Shapley path-integral attribution to LLM-powered MAS at million-agent scale。
論文 参考訳(メタデータ) (2026-05-12T01:49:41Z) - SkillEvolver: Skill Learning as a Meta-Skill [46.52001686198623]
オンラインスキル学習のための軽量なプラグアンドプレイソリューションである textbfSkillEvolver を提案する。
SkillEvolverの学習対象は、モデルの重みではなく、スキルの散文とコードである。
微量蒸留とは異なり、メタスキルは学習スキルの展開後にのみ洗練される。
論文 参考訳(メタデータ) (2026-05-11T12:58:25Z) - A Preliminary Agentic Framework for Matrix Deflation [2.6140509675507384]
本稿では,解法がランク1を更新し,いつ停止するかを決定する,行列デフレに対するエージェント的アプローチを提案する。
Digits (8times 8$), CIFAR-10 (32times32$ grayscale), 合成 (16times16$) の行列をガウス雑音と無雑音で評価した。
全ての設定において、エージェントは競合する結果を達成し、古典的な数値アルゴリズムの代替として、完全にエージェント的、しきい値のないデフレが実現可能であることを示唆している。
論文 参考訳(メタデータ) (2026-01-06T23:59:18Z) - Data-Free Pruning of Self-Attention Layers in LLMs [1.7188280334580195]
本稿では,クエリーキー結合によって注目サブレイヤをランク付けする1ショットの重みのみの基準であるGate-Normを提案する。
Gate-Normは、キャリブレーションデータを必要とせず、フォワードパスも微調整も不要で、特別なカーネルも不要である。
論文 参考訳(メタデータ) (2025-12-03T07:47:49Z) - ResT: Reshaping Token-Level Policy Gradients for Tool-Use Large Language Models [62.82372407840088]
大規模言語モデル(LLM)は受動的生成を超越し、外部ツールを呼び出すことで目標指向エージェントとして機能する。
textbfReshaped textbfToken-level policy gradients (textbfResT) for tool-use task。
textbfResTは最先端の結果を達成し、以前のメソッドを最大8.76%$で上回っている。
論文 参考訳(メタデータ) (2025-09-26T03:38:27Z) - FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [68.44043212834204]
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
論文 参考訳(メタデータ) (2025-05-19T07:32:56Z) - Skill-Mix: a Flexible and Expandable Family of Evaluations for AI models [50.11814354654953]
AIエージェントの主な能力は、必要に応じて、学習した基本的なスキルを柔軟に組み合わせることである。
この研究は、スキルを組み合わせる能力を測定するための新しい評価であるSkill-Mixを導入している。
論文 参考訳(メタデータ) (2023-10-26T16:55:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。