論文の概要: SkillForge: Forging Domain-Specific, Self-Evolving Agent Skills in Cloud Technical Support
- arxiv url: http://arxiv.org/abs/2604.08618v1
- Date: Thu, 09 Apr 2026 07:11:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.494009
- Title: SkillForge: Forging Domain-Specific, Self-Evolving Agent Skills in Cloud Technical Support
- Title(参考訳): SkillForge: クラウド技術サポートにおけるドメイン特有で自己進化型のエージェントスキルの鍛造
- Authors: Xingyan Liu, Xiyue Luo, Linyu Li, Ganghong Huang, Jianfeng Liu, Honglin Qiao,
- Abstract要約: 既存のスキルクリエーターはドメイン基盤を欠き、現実世界のタスク要件に適合しないスキルを生み出す。
SkillForgeは、エンドツーエンドの生成/リファインメントループを閉じるセルフ進化フレームワークです。
1,883のチケットと3,737のタスクにまたがる,現実世界のクラウドサポートシナリオを5つ評価した。
- 参考スコア(独自算出の注目度): 3.277125886726497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying LLM-powered agents in enterprise scenarios such as cloud technical support demands high-quality, domain-specific skills. However, existing skill creators lack domain grounding, producing skills poorly aligned with real-world task requirements. Moreover, once deployed, there is no systematic mechanism to trace execution failures back to skill deficiencies and drive targeted refinements, leaving skill quality stagnant despite accumulating operational evidence. We introduce SkillForge, a self-evolving framework that closes an end-to-end creation-evaluation-refinement loop. To produce well-aligned initial skills, a Domain-Contextualized Skill Creator grounds skill synthesis in knowledge bases and historical support tickets. To enable continuous self-optimization, a three-stage pipeline -- Failure Analyzer, Skill Diagnostician, and Skill Optimizer -- automatically diagnoses execution failures in batch, pinpoints the underlying skill deficiencies, and rewrites the skill to eliminate them. This cycle runs iteratively, allowing skills to self-improve with every round of deployment feedback. Evaluated on five real-world cloud support scenarios spanning 1,883 tickets and 3,737 tasks, experiments show that: (1) the Domain-Contextualized Skill Creator produces substantially better initial skills than the generic skill creator, as measured by consistency with expert-authored reference responses from historical tickets; and (2) the self-evolution loop progressively improves skill quality from diverse starting points (including expert-authored, domain-created, and generic skills) across successive rounds, demonstrating that automated evolution can surpass manually curated expert knowledge.
- Abstract(参考訳): LLMベースのエージェントをクラウド技術サポートなどのエンタープライズシナリオにデプロイするには、高品質でドメイン固有のスキルが必要です。
しかし、既存のスキル・クリエーターはドメイン・グラウンディングを欠き、現実世界のタスク・要件に適合しないスキルを生み出す。
さらに、一度デプロイすると、実行失敗をスキルの欠陥まで追跡し、目標とする改善を推進し、運用上の証拠を蓄積してもスキル品質が停滞する体系的なメカニズムは存在しない。
SkillForgeは、エンド・ツー・エンドの作成・評価・リファインメント・ループを閉じる自己進化型のフレームワークです。
ドメイン・コンテクスト化されたスキル・クリエーターは知識ベースと歴史的支援チケットのスキル・シンセサイザーを基礎とする。
継続的自己最適化を実現するために、3段階のパイプライン -- Failure Analyzer、Skill Diagnostician、Skill Optimizer -- は、バッチ内の実行障害を自動的に診断し、基礎となるスキルの欠陥を特定し、スキルを書き換えて排除する。
このサイクルは反復的に実行され、デプロイフィードバックのすべてのラウンドでスキルを自己改善することができる。
1,883のチケットと3,737のタスクにまたがる5つの現実のクラウドサポートシナリオを評価すると、(1)ドメインコンテキスト化スキルクリエータは、履歴チケットからのエキスパート認可された参照応答との整合性によって測定された、ジェネリックスキルクリエータよりもはるかに優れた初期スキルを生産し、(2)自己進化ループは、連続したラウンドでさまざまな出発点(エキスパート認可、ドメイン作成、ジェネリックスキルを含む)からスキル品質を徐々に改善し、自動進化が手作業でキュレーションされたエキスパート知識を上回ることを実証する。
関連論文リスト
- SkillX: Automatically Constructing Skill Knowledge Bases for Agents [27.56549031749266]
SkillXは、プラグアンドプレイのスキル知識ベースを構築するための、完全に自動化されたフレームワークである。
3つのシナジスティックなイノベーションに基づいて構築された、完全に自動化されたパイプラインを通じて運用される。
実験の結果、SkillKBは、より弱いベースエージェントにプラグインされた場合、タスクの成功と実行効率を一貫して改善している。
論文 参考訳(メタデータ) (2026-04-06T16:09:33Z) - SkillAttack: Automated Red Teaming of Agent Skills through Attack Path Refinement [66.44008181092832]
LLMベースのエージェントシステムは、その能力を拡張するためにオープンレジストリからのエージェントスキルにますます依存している。
SkillAttackは、敵のプロンプトを通じて、スキル脆弱性の脆弱性を検証できるフレームワークである。
論文 参考訳(メタデータ) (2026-04-05T06:25:11Z) - SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization [61.37478254738943]
推論時のスキル向上は基本的に制限されている。
SKILL0は,スキル内部化のためのコンテキスト内強化学習フレームワークである。
SKILL0は標準のRLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2026-04-02T17:03:05Z) - EvoSkills: Self-Evolving Agent Skills via Co-Evolutionary Verification [85.3692584167951]
Anthropicは、LLMエージェントが多段階のプロフェッショナルタスクに取り組むためのスキルの概念を提案する。
ツールは単一の自己完結型関数であり、スキルは相互依存型多ファイルアーティファクトの構造化バンドルである。
EvoSkillsは、エージェントが複雑なマルチファイルスキルパッケージを自律的に構築できる自己進化型スキルフレームワークである。
論文 参考訳(メタデータ) (2026-04-02T06:43:20Z) - EvoSkill: Automated Skill Discovery for Multi-Agent Systems [6.319876096746374]
エージェントスキルを自動的に発見・洗練する自己進化型フレームワークである textbfEvoSkill を紹介する。
EvoSkillは実行障害を分析し、新しいスキルや既存のスキルへの編集を提案し、それらを構造化された再利用可能なスキルフォルダに実体化する。
われわれはEvoSkillを米国財務データの根拠となる推論ベンチマークであるOfficeQAと、ノイズの多い検索ベンチマークであるSealQAの2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2026-03-03T09:07:22Z) - Uni-Skill: Building Self-Evolving Skill Repository for Generalizable Robotic Manipulation [32.86306309089796]
Uni-Skillはスキル中心のフレームワークで、スキル対応のプランニングをサポートする。
既存のスキルが不十分な場合、新しいスキル実装に対するUni-Skillリクエスト。
Skillは、大規模な非構造化ロボットビデオから派生したVerbNetにインスパイアされたリポジトリだ。
論文 参考訳(メタデータ) (2026-03-03T05:49:37Z) - SkillNet: Create, Evaluate, and Connect AI Skills [159.47504178122156]
SkillNetは、大規模にAIスキルを作成し、評価し、組織化するように設計されたオープンインフラストラクチャである。
私たちのインフラストラクチャは、20万を超えるスキルのリポジトリ、インタラクティブなプラットフォーム、多目的Pythonツールキットを統合しています。
論文 参考訳(メタデータ) (2026-02-26T14:24:02Z) - SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks [61.89812116484928]
エージェントスキルは、LLMエージェントを推論時に増強する手続き的知識の構造化パッケージである。
SkillsBenchは、11のドメインにわたる86のタスクのベンチマークであり、キュレートされたスキルと決定論的検証との組み合わせを示す。
キュレートされたスキルは平均パスレートを16.2ポイント(pp)上昇させるが、効果は領域によって大きく異なる。
自己生成スキルは平均的に何の利益も与えず、モデルが消費から得られる手続き的な知識を確実に説明できないことを示している。
論文 参考訳(メタデータ) (2026-02-13T07:06:06Z) - Discovering Generalizable Skills via Automated Generation of Diverse
Tasks [82.16392072211337]
本稿では,多種多様なタスクの自動生成による一般化可能なスキルの発見手法を提案する。
教師なしスキル発見の先行研究とは対照的に,本手法では各スキルをトレーニング可能なタスクジェネレータが生成するユニークなタスクとペアリングする。
生成したタスクにおけるロボットの動作に定義されたタスク判別器を共同で訓練し、多様性目標の低いエビデンスを推定する。
学習スキルは階層的な強化学習アルゴリズムで構成され、目に見えない目標タスクを解決する。
論文 参考訳(メタデータ) (2021-06-26T03:41:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。