Fugu-MT 論文翻訳(概要): SkillRevise: Improving LLM-Authored Agent Skills via Trace-Conditioned Skill Revision

論文の概要: SkillRevise: Improving LLM-Authored Agent Skills via Trace-Conditioned Skill Revision

arxiv url: http://arxiv.org/abs/2606.01139v2
Date: Tue, 02 Jun 2026 08:41:20 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-03 18:57:50.452351
Title: SkillRevise: Improving LLM-Authored Agent Skills via Trace-Conditioned Skill Revision
Title（参考訳）: SkillRevise:Trace-Conditioned Skill RevisionによるLLM認証エージェントスキルの改善
Authors: Yuxuan Liu, Zhaochen Su, Lingyun Xie, Yuhao Zhang, Qing Zong, Jiahe Guo, Zhongwei Xie, Yiyan Ji, Yauwai Yim, Hongyu Luo, Xiyu Ren, Ruan Chenyu, Haoran Li, Yangqiu Song,
Abstract要約: SkillReviseはエージェントスキルを反復的に洗練するために設計された実行基盤フレームワークである。 SkillReviseは、実行エビデンスからスキル欠陥を診断し、一般的なメモリから関連する修復原則を検索し、実行順に編集を適用する。単発ベースラインを大幅に上回り、SkillsBenchにおけるベースエージェントの成功率は36.05%から61.63%に向上した。
参考スコア（独自算出の注目度）: 41.562357872885826
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Agent skills are procedural artifacts that enable LLM agents to execute workflows, verify constraints, and recover from failures. Existing self-evolving methods refine skills using accumulated trajectories. However, they struggle in cold-start settings, where only an initial, imperfect skill is available. Consequently, skill construction defaults to expert authoring or one-shot LLM generation. Expert-authored skills are costly and may not align with how LLM agents actually execute tasks, while one-shot generated skills can be syntactically well formed yet behaviorally weak. To bridge this gap, we propose SkillRevise, an execution-grounded framework designed to iteratively refine these initial skills. SkillRevise diagnoses skill defects from execution evidence, retrieves relevant repair principles from a general memory, and applies execution-anchored edits. By re-executing candidates and measuring empirical utility, it systematically retains the optimal skill version. Evaluated across three benchmarks and five LLMs, SkillRevise substantially outperforms one-shot baselines, improving the base agent's success rate on SkillsBench from 36.05% to 61.63%. Furthermore, the revised skills exhibit strong cross-model transferability, capturing generalized procedural knowledge over model-specific artifacts.
Abstract（参考訳）: エージェントスキルは、LLMエージェントがワークフローの実行、制約の検証、障害からの回復を可能にする手続き的なアーティファクトである。既存の自己進化手法は蓄積された軌跡を用いてスキルを洗練させる。しかし、初期の不完全なスキルしか利用できないコールドスタート環境では苦労している。その結果、スキル構築は専門家のオーサリングやワンショットのLLM生成にデフォルトとなる。専門家によるスキルはコストがかかり、LLMエージェントが実際にタスクを実行する方法と一致しないかもしれない。このギャップを埋めるために、我々はこれらの初期スキルを反復的に洗練するために設計された実行基盤フレームワークであるSkillReviseを提案する。 SkillReviseは、実行エビデンスからスキル欠陥を診断し、一般的なメモリから関連する修復原則を検索し、実行順に編集を適用する。候補を再実行し、経験的有用性を測定することで、最適なスキルバージョンを体系的に保持する。 3つのベンチマークと5つのLDMで評価され、SkillReviseは1ショットのベースラインを大幅に上回り、SkillsBenchにおけるベースエージェントの成功率は36.05%から61.63%に向上した。さらに、改良された技術は強力なクロスモデル転送可能性を示し、モデル固有のアーティファクトに対する一般的な手続き的知識をキャプチャする。

関連論文リスト

Skill-R1: Agent Skill Evolution via Reinforcement Learning [84.35984979949502]
Skill-R1は、検証可能な報酬からインスタンスレベルの繰り返しスキル最適化のための強化学習フレームワークである。オープンソースモデルとクローズドソースモデルの両方とのブラックボックス互換性を維持しつつ、モデルレベルの更新よりも大幅に安価に適応できる。
論文参考訳（メタデータ） (2026-05-10T06:19:15Z)
SkillGen: Verified Inference-Time Agent Skill Synthesis [60.927977774369516]
SkillGenは、ベースエージェントによって生成されたトラジェクトリから単一の監査可能なスキルを合成するフレームワークである。再利用可能な成功パターン、繰り返し発生する障害モード、そして近くの成功に現れるが失敗に欠ける行動を特定する。 SkillGenの重要な特徴は、エージェントスキルを、全体的なパフォーマンスに対するスキルのネット効果を実証的に検証するための介入としてモデル化することです。
論文参考訳（メタデータ） (2026-05-09T19:24:11Z)
SkillMaster: Toward Autonomous Skill Mastery in LLM Agents [27.651128308229378]
SkillMasterは、エージェントに新しいスキルを作り、既存のスキルを洗練させ、タスク解決中に蓄積したスキルを選択する訓練フレームワークである。第一に、私たちは、軌道インフォームドスキルレビューを通じてエージェントを訓練し、完成したエピソードの証拠に基づいて、提案、更新、保持するためのエージェントを指導する。第2に、各候補スキル編集は、関連するプローブタスクに対する対実的ユーティリティによって評価され、スキル編集決定を訓練するための直接学習信号を提供する。第3に、DualAdv-GRPOを導入し、タスク解決行動とスキル編集決定の利点を個別に推定し、タスク解決における共同トレーニングを安定化する。
論文参考訳（メタデータ） (2026-05-09T05:03:00Z)
SkillLens: Adaptive Multi-Granularity Skill Reuse for Cost-Efficient LLM Agents [6.293920920196533]
SkillLensは階層的なスキル進化フレームワークで、スキルをポリシー、戦略、手順、プリミティブの4層グラフにまとめる。セマンティックなスキルシードを検索し、スキルグラフの次数補正されたランダムウォークを通じて拡張し、各訪問したユニットが受け入れられ、分解され、書き直され、スキップされるかどうかを検証器を使って決定する。 MuLocbenchとALFWorld全体で、SkillLensは、強いスキルベースのベースラインよりも一貫して改善されている。
論文参考訳（メタデータ） (2026-05-08T18:48:04Z)
SkillOS: Learning Skill Curation for Self-Evolving Agents [67.94374107466957]
本稿では,自己進化エージェントのスキルキュレーションを学習するための,経験駆動型RLトレーニングレシピであるSkillOSを提案する。 SkillOSは、凍結したエージェントエグゼキュータとトレーニング可能なスキルキュレーターを組み合わせて、蓄積したエクスペリエンスから外部SkillRepoを更新する。 SkillOSは、メモリフリーと強力なメモリベースラインを、有効性と効率の両方で一貫して上回っていることを示す。
論文参考訳（メタデータ） (2026-05-07T17:31:50Z)
How Well Do Agentic Skills Work in the Wild: Benchmarking LLM Skill Usage in Realistic Settings [29.3744517703302]
本研究は,段階的に挑戦的な現実的な環境下でのスキルユーティリティの総合的研究である。その結果、設定がよりリアルになるにつれて、パフォーマンスは一貫して低下することがわかった。クエリ固有の改善は、初期スキルが合理的な妥当性と品質を持つ場合に、性能を著しく回復することを示す。
論文参考訳（メタデータ） (2026-04-06T00:10:30Z)
EvoSkills: Self-Evolving Agent Skills via Co-Evolutionary Verification [85.3692584167951]
Anthropicは、LLMエージェントが多段階のプロフェッショナルタスクに取り組むためのスキルの概念を提案する。ツールは単一の自己完結型関数であり、スキルは相互依存型多ファイルアーティファクトの構造化バンドルである。 EvoSkillsは、エージェントが複雑なマルチファイルスキルパッケージを自律的に構築できる自己進化型スキルフレームワークである。
論文参考訳（メタデータ） (2026-04-02T06:43:20Z)
Re-TASK: Revisiting LLM Tasks from Capability, Skill, and Knowledge Perspectives [54.14429346914995]
CoT(Chain-of-Thought)は、大規模言語モデル(LLM)による複雑な問題を解決する重要な方法となっている。本稿では,LLMタスクを能力,スキル,知識の観点から再考する理論モデルであるRe-TASKフレームワークを紹介する。多様な領域にわたる実験は、Re-TASKの有効性を示す。
論文参考訳（メタデータ） (2024-08-13T13:58:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。