論文の概要: Library Drift: Diagnosing and Fixing a Silent Failure Mode in Self-Evolving LLM Skill Libraries
- arxiv url: http://arxiv.org/abs/2605.19576v1
- Date: Tue, 19 May 2026 09:19:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.225518
- Title: Library Drift: Diagnosing and Fixing a Silent Failure Mode in Self-Evolving LLM Skill Libraries
- Title(参考訳): 図書館ドリフト : 自己進化型LCMスキルライブラリにおけるサイレント障害モードの診断と修正
- Authors: Xing Zhang, Yanwei Cui, Guanghui Wang, Ziyuan Li, Wei Qiu, Bing Zhu, Peiyang He,
- Abstract要約: 自己進化型スキルライブラリは、サイレントな失敗モードに直面します — 成果駆動型ライフサイクル管理のないスキル蓄積は、検索の劣化、偽陽性注入、パフォーマンスの停滞を引き起こします。
最近の評価では、症状-LLMによるスキルは+0.0pp、人為的なスキルは+16.2pp(Bench)である。
- 参考スコア(独自算出の注目度): 9.989306175511238
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Self-evolving skill libraries face a silent failure mode we term \emph{library drift}: unbounded skill accumulation without outcome-driven lifecycle management causes retrieval degradation, false-positive injections, and performance stagnation. Recent evaluation confirms the symptom--LLM-authored skills deliver +0.0pp gain while human-curated ones deliver +16.2pp (SkillsBench)--yet the underlying mechanism has not been isolated. We provide (1) a reproducible trigger: ablations that isolate drift--one disables skill injection (flat floor, +0.002), one imposes premature retirement (active harm, $-$0.019); (2) trace-level diagnostics: an append-only evidence log with per-skill contribution scores, attribution verdicts, and router engagement metrics that make the failure visible before it reaches end-task scores; and (3) a verified fix: a minimal governance recipe (outcome-driven retirement + bounded active-cap + meta-skill authoring prior) that lifts held-out pass@1 from a 0.258 baseline to a late-window mean of 0.584 (rolling gain $+$0.328) on MBPP+ hard-100 over 100 rounds. Eight ablations decompose which governance mechanisms are load-bearing and which are subsumed, providing a concrete playbook for diagnosing library drift in any self-evolving agent.
- Abstract(参考訳): 自己進化型スキルライブラリは、サイレント障害モードに直面します。“emph{library drift}: 結果駆動型ライフサイクル管理のない、無制限のスキル蓄積は、検索の劣化、偽陽性注入、パフォーマンスの停滞を引き起こします。
最近の評価では, 症状-LLM認定スキルが+0.0ppの上昇を達成し, 人為的なスキルが+16.2pp(SkillsBench)を届ける一方で, その基盤となるメカニズムは孤立していない。(1) 再現可能なトリガ: ドリフト・ワンの障害を分離するアブレーション: スキルインジェクション(フラットフロア, +0.002), 早期退職(アクティブハーネス, $-0.019), (2) トレースレベルの診断: スキルごとのコントリビューションスコア, 帰納的評価, 障害を目に見えるものにするルータのエンゲージメントメトリクス; (3) 最小限のガバナンスレシピ(アウトカム駆動型リクルード + アクティブなメタスキル) + 58: パスアウトラインからアウトラインまでの平均値(平均値) % % % % % 以上 % 以上 % 以上 以上 % 以上 % 以上 % 以上 以上 % 以上 % 以上 % 以上 以上 % 以上 % 以上 % 以上 以上 % 以上 以上 % % 以上 以上 % 以上 以上 % は, % を達成できる。
8つの Ablations は、ガバナンスメカニズムがロードベアリングであり、仮定されるものを分解し、ライブラリドリフトを自己進化剤で診断するための具体的なプレイブックを提供する。
関連論文リスト
- ChromaFlow: A Negative Ablation Study of Orchestration Overhead in Tool-Augmented Agent Evaluation [0.0]
本稿では,プランナー指向実行,特殊なツール使用,テレメトリ駆動評価を中心に構築されたツール拡張型自律推論フレームワークを提案する。
クリーンな評価制約の下でGAIA 2023 Level-1バリデーションタスクのクロマフローを解析する。
論文 参考訳(メタデータ) (2026-05-13T20:40:37Z) - Skill Drift Is Contract Violation: Proactive Maintenance for LLM Agent Skill Libraries [14.848157882117613]
LLMエージェントは、再利用可能なスキルライブラリにますます依存しているが、これらのスキルは、外部サービス、パッケージ、APIが進化するにつれて静かに崩壊する。
契約違反としてスキルドリフトを定式化し、スキル文書から実行可能な環境契約を抽出するsgnameを導入する。
sgnameは、599のドリフトとハードネガティブなケースに対してゼロの偽のアラームを発生させる。
論文 参考訳(メタデータ) (2026-05-09T11:41:53Z) - Beyond Completion: Probing Cumulative State Tracking to Predict LLM Agent Performance [9.771590610969918]
WMF-AM(Working Memory Fidelity-Active Manipulation)を紹介する。
その結果,20種類のオープンウェイトモデル (0.5B-35B, 13ファミリー) で10タスク・エージェント・バッテリを発売した。
論文 参考訳(メタデータ) (2026-03-28T17:25:11Z) - First-Mover Bias in Gradient Boosting Explanations: Mechanism, Detection, and Resolution [0.0]
第1モーバーバイアス(英: First-mover bias)は、勾配上昇における逐次的残留フィッティングに起因する特徴量の集中である。
モデル独立性は線形状態における最優先バイアスを解くのに十分であり、非線形データ生成プロセス下では最も効果的な緩和法であることを示す。
論文 参考訳(メタデータ) (2026-03-22T02:59:40Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Distilling Deep Reinforcement Learning into Interpretable Fuzzy Rules: An Explainable AI Framework [1.9180507495574395]
深層強化学習(DRL)エージェントは、継続的な制御において顕著なパフォーマンスを達成するが、不透明なままであり、安全クリティカルなドメインへの展開を妨げる。
既存の説明可能性法は、局所的な洞察(SHAP、LIME)のみを提供するか、過度に単純化されたサロゲートを使用し、連続的なダイナミクスを捉えることができない。
本研究では、状態可読パーティショニングのためのK-Meansクラスタリングを通じて、ニューラルポリシーを人間可読IF-THENルールに蒸留するファジィシステム(FCS)を提案する。
説明焦点を測定するルール密度(FRAD)、語彙完全性を検証するファジィ集合被覆(FSC)、行動空間の粒度(Action Space Granularity)の3つの定量化指標が導入された。
論文 参考訳(メタデータ) (2026-02-24T23:53:01Z) - BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning [73.46118996284888]
マルチモーダル・コントラスト学習モデルに対するバックドア攻撃の研究は、ステルスネスと永続性という2つの大きな課題に直面している。
両課題に対処する統合フレームワークであるBadCLIP++を提案する。
ステルスネスのために,タスク関連領域付近に知覚不可能なパターンを埋め込むセマンティックフュージョンQRマイクロトリガーを導入する。
持続性については、半径縮小とセントロイドアライメントによるトリガ埋め込みを安定化する。
論文 参考訳(メタデータ) (2026-02-19T08:31:16Z) - On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral [59.14787085809595]
この障害を引き起こす中核的なメカニズムとしてLazy Likelihood Displacement(LLD)を同定する。
LDDは早期に出現し、自己強化性LDDデススパイラル(LDD Death Spiral)を引き起こす。
本稿では,GRPO のための軽量な確率保存正則化 LLDS を提案する。
論文 参考訳(メタデータ) (2025-12-03T19:41:15Z) - SABER: Small Actions, Big Errors -- Safeguarding Mutating Steps in LLM Agents [52.20768003832476]
我々は$$-Bench (Airline/Retail) および SWE-Bench Verified 上での実行トレースを分析する。
成功を失敗に戻すための、先進的な逸脱、最初期の行動、レベル分岐を形式化する。
モデルに依存しない,勾配のない,テスト時のセーフガードである cm を導入します。
論文 参考訳(メタデータ) (2025-11-26T01:28:22Z) - LLMs Can Get "Brain Rot"! [68.08198331505695]
ジャンクウェブテキストへの連続曝露は、大規模言語モデル(LLM)の持続的認知低下を誘導する
実Twitter/Xコーパスで制御された実験を行い、ジャンクと逆制御されたデータセットを構築します。
その結果、データ品質がLLM能力の崩壊の原因であることを示す重要な多視点的証拠が得られた。
論文 参考訳(メタデータ) (2025-10-15T13:28:49Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。