Fugu-MT 論文翻訳(概要): SoK: Agentic Skills -- Beyond Tool Use in LLM Agents

論文の概要: SoK: Agentic Skills -- Beyond Tool Use in LLM Agents

arxiv url: http://arxiv.org/abs/2602.20867v1
Date: Tue, 24 Feb 2026 13:11:38 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.756628
Title: SoK: Agentic Skills -- Beyond Tool Use in LLM Agents
Title（参考訳）: SoK:エージェントスキル - LLMエージェントのツール以外のもの
Authors: Yanna Jiang, Delong Li, Haiyu Deng, Baihe Ma, Xu Wang, Qin Wang, Guangsheng Yu,
Abstract要約: エージェントシステムは、より確実にロングホライゾンを実行するために、再利用可能な手続き能力、すなわちエージェントスキルに依存している。本論文は,全ライフサイクルのスキルレイヤ(発見,実践,蒸留,貯蔵,構成,評価,更新)をマッピングする。我々は、スキルベースのエージェントのセキュリティとガバナンスの影響を分析し、サプライチェーンのリスク、スキルペイロードによるインジェクションの促進、信頼度の高い実行をカバーします。
参考スコア（独自算出の注目度）: 6.356997609995175
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Agentic systems increasingly rely on reusable procedural capabilities, \textit{a.k.a., agentic skills}, to execute long-horizon workflows reliably. These capabilities are callable modules that package procedural knowledge with explicit applicability conditions, execution policies, termination criteria, and reusable interfaces. Unlike one-off plans or atomic tool calls, skills operate (and often do well) across tasks. This paper maps the skill layer across the full lifecycle (discovery, practice, distillation, storage, composition, evaluation, and update) and introduces two complementary taxonomies. The first is a system-level set of \textbf{seven design patterns} capturing how skills are packaged and executed in practice, from metadata-driven progressive disclosure and executable code skills to self-evolving libraries and marketplace distribution. The second is an orthogonal \textbf{representation $\times$ scope} taxonomy describing what skills \emph{are} (natural language, code, policy, hybrid) and what environments they operate over (web, OS, software engineering, robotics). We analyze the security and governance implications of skill-based agents, covering supply-chain risks, prompt injection via skill payloads, and trust-tiered execution, grounded by a case study of the ClawHavoc campaign in which nearly 1{,}200 malicious skills infiltrated a major agent marketplace, exfiltrating API keys, cryptocurrency wallets, and browser credentials at scale. We further survey deterministic evaluation approaches, anchored by recent benchmark evidence that curated skills can substantially improve agent success rates while self-generated skills may degrade them. We conclude with open challenges toward robust, verifiable, and certifiable skills for real-world autonomous agents.
Abstract（参考訳）: エージェントシステムは、長期のワークフローを確実に実行するために、再利用可能な手続き機能である「textit{a.k.a., agentic skills}」にますます依存している。これらの機能は、手続き的な知識を明示的な適用条件、実行ポリシー、終了基準、再利用可能なインターフェースでパッケージする呼び出し可能なモジュールである。ワンオフのプランやアトミックなツールコールとは異なり、スキルはタスク間で動作します(そして多くの場合、うまく機能します)。本稿では, 技術層を全ライフサイクル(発見, 実践, 蒸留, 貯蔵, 組成, 評価, 更新)にわたってマッピングし, 相補的な2つの分類法を紹介する。ひとつは、メタデータ駆動のプログレッシブな開示と実行可能なコードスキルから、自己進化的なライブラリやマーケットプレースディストリビューションに至るまで、どのようにしてスキルがパッケージ化され、実際に実行されるかを測定する、システムレベルの‘textbf{seven design pattern’である。 2つ目は直交的な \textbf{representation $\times$ scope} の分類であり、どんなスキル(自然言語、コード、ポリシー、ハイブリッド)、どんな環境(Web、OS、ソフトウェアエンジニアリング、ロボティクス)で動くかを記述している。我々は、ClawHavocキャンペーンのケーススタディに基づいて、スキルベースのエージェントのセキュリティとガバナンスの影響を分析し、サプライチェーンのリスクをカバーし、スキルペイロードによるインジェクションを促進し、信頼度の高い実行を可能にする。近年のベンチマークでは、自己生成スキルが低下する一方、キュレートされたスキルはエージェントの成功率を大幅に改善できるという結論が得られた。我々は、現実の自律エージェントに対する堅牢で、検証可能で、証明可能なスキルへのオープンな挑戦で締めくくります。

関連論文リスト

EvoSkill: Automated Skill Discovery for Multi-Agent Systems [6.319876096746374]
エージェントスキルを自動的に発見・洗練する自己進化型フレームワークである textbfEvoSkill を紹介する。 EvoSkillは実行障害を分析し、新しいスキルや既存のスキルへの編集を提案し、それらを構造化された再利用可能なスキルフォルダに実体化する。われわれはEvoSkillを米国財務データの根拠となる推論ベンチマークであるOfficeQAと、ノイズの多い検索ベンチマークであるSealQAの2つのベンチマークで評価した。
論文参考訳（メタデータ） (2026-03-03T09:07:22Z)
SkillCraft: Can LLM Agents Learn to Use Tools Skillfully? [67.69996753743129]
SkillCraftは、高レベルのツールコンポジションの生成と再利用を可能にする、明示的にストレステストエージェントのベンチマークである。 SkillCraftは、定量次元と構造次元の両方に沿ってスケールする困難を伴う、現実的で、構成性の高いツール使用シナリオを特徴としている。本稿では,エージェントがアトミックツールを実行可能なスキルに自動生成し,タスク内およびタスク間のキャッシュと再利用を可能にする軽量な評価プロトコルを提案する。
論文参考訳（メタデータ） (2026-02-28T15:44:31Z)
SkillNet: Create, Evaluate, and Connect AI Skills [159.47504178122156]
SkillNetは、大規模にAIスキルを作成し、評価し、組織化するように設計されたオープンインフラストラクチャである。私たちのインフラストラクチャは、20万を超えるスキルのリポジトリ、インタラクティブなプラットフォーム、多目的Pythonツールキットを統合しています。
論文参考訳（メタデータ） (2026-02-26T14:24:02Z)
Agent Skill Framework: Perspectives on the Potential of Small Language Models in Industrial Environments [14.079091139464175]
この研究は、エージェントスキルプロセスの形式的な数学的定義を導入し、その後、様々な大きさの言語モデルの体系的な評価を行った。その結果、小型モデルは信頼性の高いスキル選択に苦しむ一方で、中程度のサイズのSLM(約12B～30B)はエージェントスキルアプローチから大きく恩恵を受けることがわかった。
論文参考訳（メタデータ） (2026-02-18T17:52:17Z)
SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文参考訳（メタデータ） (2026-02-15T16:09:48Z)
Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward [5.124116559484265]
モノリシックな言語モデルからモジュール化された、スキルを持ったエージェントへの移行は、大規模言語モデル(LLM)の実際のデプロイ方法に決定的な変化をもたらす。すべての手続き的知識をモデルウェイト内にエンコードするのではなく、エージェントスキルは、再トレーニングせずに動的機能拡張を可能にする。この調査は、エージェントスキルのランドスケープを包括的に扱うもので、ここ数ヶ月で急速に進化してきた。
論文参考訳（メタデータ） (2026-02-12T21:33:25Z)
SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning [83.98129545309277]
生経験と政策改善のギャップを埋めるフレームワークであるSkillRLを提案する。本手法では,階層型スキルライブラリであるSkillBankを構築するために,経験に基づく蒸留機構を導入する。 ALF、WebShop、および7つの検索強化タスクの実験結果は、SkillRLが最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2026-02-09T03:17:17Z)
Agent Skills: A Data-Driven Analysis of Claude Skills for Extending Large Language Model Functionality [9.192260493061754]
エージェントスキルは、再利用可能なプログラムのようなモジュールで大きな言語モデル(LLM)エージェントを拡張する。主要なマーケットプレースから40,285の公開スキルを大規模かつデータ駆動で分析する。以上の結果から,コミュニティの注目度の変化を追及する短時間でスキルパブリッシュが発生する傾向が示唆された。
論文参考訳（メタデータ） (2026-02-08T15:14:12Z)
CUA-Skill: Develop Skills for Computer Using Agent [48.87870942314034]
コンピュータを利用したエージェントスキルベースであるCUA-Skillを導入し,人間のコンピュータ利用知識をスキルとして符号化する。我々は、動的スキル検索、引数のインスタンス化、メモリ認識障害回復をサポートする、エンドツーエンドのコンピュータ利用エージェントであるCUA-Skill Agentを構築した。その結果、CUA-Skillは、エンドツーエンドのベンチマークで実行の成功率と堅牢性を大幅に向上することを示した。
論文参考訳（メタデータ） (2026-01-28T23:38:25Z)
PolySkill: Learning Generalizable Skills Through Polymorphic Abstraction [20.687269802717893]
新しいフレームワークであるPolySkillを導入し、エージェントが一般化可能な構成スキルを学習できるようにする。実験の結果,本手法はWebサイトにおけるスキルの再利用を1.7倍に改善することがわかった。エージェントが自身の目標を特定して洗練させることで、PolySkillはエージェントのより良いカリキュラムを学ぶ能力を高める。
論文参考訳（メタデータ） (2025-10-17T17:56:00Z)
UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios [63.67884284105684]
textbfUltraHorizonは、複雑な現実世界の課題に不可欠な基礎的能力を測定する新しいベンチマークである。エージェントは、隠されたルールを反復的に発見しなければならない、長期にわたる発見タスクで設計されている。実験の結果, LLM-agents はこれらの設定において常に不利な成績を示し, ヒトは高いスコアを得ることができた。
論文参考訳（メタデータ） (2025-09-26T02:04:00Z)
Agentic Knowledgeable Self-awareness [79.25908923383776]
KnowSelfはデータ中心のアプローチで、人間のような知識のある自己認識を持つエージェントを応用する。我々の実験により、KnowSelfは、外部知識を最小限に使用して、様々なタスクやモデルにおいて、様々な強力なベースラインを達成できることが実証された。
論文参考訳（メタデータ） (2025-04-04T16:03:38Z)
Choreographer: Learning and Adapting Skills in Imagination [60.09911483010824]
我々は、その世界モデルを利用して想像力のスキルを学び、適応するモデルベースのエージェントであるChoreographerを紹介する。提案手法は探索とスキル学習のプロセスを切り離し,モデルの潜在状態空間におけるスキルの発見を可能にする。 Choreographerはオフラインデータからスキルを学ぶことができ、探索ポリシーと同時にデータを集めることができる。
論文参考訳（メタデータ） (2022-11-23T23:31:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。