論文の概要: Formal Skill: Programmable Runtime Skills for Efficient and Accurate LLM Agents
- arxiv url: http://arxiv.org/abs/2605.19604v1
- Date: Tue, 19 May 2026 09:43:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 01:01:02.803621
- Title: Formal Skill: Programmable Runtime Skills for Efficient and Accurate LLM Agents
- Title(参考訳): フォーマルスキル: プログラム可能なLCMエージェントのための実行スキル
- Authors: Xi Zhang, Meijun Gao, Yuntian Zhao, Xinyu Tan, Yilun Yao, Feiyu Wang, Yanshu Wang, Dingsiyi, Tong Yang,
- Abstract要約: 大きな言語モデル(LLM)エージェントは、モデル推論が信頼できるアクションになるかどうかをツールやスキルが判断する、実際のワークスペース内でますます機能する。
メタデータとアクションスキーマ、信頼できるPythonエグゼキュータ、フック統治制御ロジック、フォーマルスキルルーティング、スキルローカルランタイムステートで再利用可能な機能を表すランタイム言語の抽象化であるFormal Skillを紹介した。
FairyClawは、実行可能、観測可能、構成可能な形式スキルのための、オープンソースのイベント駆動ランタイムです。
- 参考スコア(独自算出の注目度): 12.78822068244461
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM) agents increasingly act inside real workspaces, where tools and skills determine whether model reasoning becomes reliable action. Existing skills remain largely informal: Markdown skills and instruction packs encode procedures as long natural-language documents, while function calling, Model Context Protocol (MCP) servers, and framework tools structure individual actions but usually leave workflow state, policy enforcement, and completion discipline outside the skill itself. We introduce Formal Skill, a runtime-native abstraction that represents reusable capability with JSON metadata and action schemas, reliable Python executors, hook-governed control logic, Formal Skill routing, and skill-local runtime state. By moving reusable procedure from repeated prompt text into executable state machines and hook policies, Formal Skill gives agents a token-efficient and enforceable control surface. We implement the abstraction in FairyClaw, an open-source event-driven runtime for executable, observable, and composable Formal Skills. On Harness-Bench, FairyClaw obtains highly competitive average scores while using substantially fewer tokens, with especially strong results on tasks that expose the role of Formal Skill.
- Abstract(参考訳): 大きな言語モデル(LLM)エージェントは、モデル推論が信頼できるアクションになるかどうかをツールやスキルが判断する、実際のワークスペース内でますます機能します。
マークダウンスキルと命令パックは、長い自然言語文書としてプロシージャをエンコードする一方で、関数呼び出し、モデルコンテキストプロトコル(MCP)サーバ、フレームワークツールは個々のアクションを構成するが、通常、ワークフローの状態、ポリシー強制、完了の規律をスキル自体の外に置く。
我々は、JSONメタデータとアクションスキーマ、信頼できるPythonエグゼキュータ、フック統治制御ロジック、フォーマルスキルルーティング、スキルローカルランタイムステートで再利用可能な機能を表すランタイムネイティブの抽象化であるFormal Skillを紹介した。
繰り返しプロンプトテキストから実行可能なステートマシンに再利用可能なプロシージャを移動し、ポリシーをフックすることで、Formal Skillはエージェントにトークン効率が高く強制力のあるコントロールサーフェスを与える。
FairyClawは、実行可能、観測可能、構成可能な形式スキルのための、オープンソースのイベント駆動ランタイムです。
Harness-Benchでは、FairyClawは、非常に少ないトークンを使用しながら、非常に競争力のある平均スコアを取得している。
関連論文リスト
- SkillGraph: Skill-Augmented Reinforcement Learning for Agents via Evolving Skill Graphs [70.1970574147839]
有向グラフのノードとして再利用可能なスキルを表現するフレームワークであるSKILLGRAPHを提案する。
SKILLGRAPHは個々のスキルだけでなく、多段階意思決定をガイドできる順序付きスキルサブグラフも取得する。
実験により,SKILLGRAPHはメモリ拡張RL法に対して最先端の性能を実現することが示された。
論文 参考訳(メタデータ) (2026-05-12T12:21:49Z) - FORTIS: Benchmarking Over-Privilege in Agent Skills [68.34663362794069]
2段階にわたるエージェントスキルの過剰な特権を評価するベンチマークを提案する。
過剰に特権化された行動は例外ではなく規範であることがわかった。
その結果、エージェント動作を含むスキル層は、それ自体が現在のシステムにおける特権エスカレーションの主要な源であることを示唆している。
論文 参考訳(メタデータ) (2026-05-09T20:57:18Z) - From Skill Text to Skill Structure: The Scheduling-Structural-Logical Representation for Agent Skills [5.327990835740087]
スケジューリング-構造論理(SSL)表現は、スキルレベルのスケジューリング信号、シーンレベルの実行構造、ロジックレベルのアクション/リソース使用エビデンスを歪めます。
SSL を LLM ベースの正規化器でインスタンス化し,SSL 由来の表現をスキル発見とリスク評価という2つのタスクで評価する。
論文 参考訳(メタデータ) (2026-04-27T04:25:15Z) - WebXSkill: Skill Learning for Autonomous Web Agents [104.76374637691212]
WebXSkillは、コードベースのスキルと自然言語ガイダンスのギャップを埋めるフレームワークである。
WebArenaとWebVoyagerでは、WebXSkillはタスク成功率をベースラインで最大9.8と12.9ポイント改善する。
論文 参考訳(メタデータ) (2026-04-14T21:48:15Z) - SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization [61.37478254738943]
推論時のスキル向上は基本的に制限されている。
SKILL0は,スキル内部化のためのコンテキスト内強化学習フレームワークである。
SKILL0は標準のRLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2026-04-02T17:03:05Z) - SkillCraft: Can LLM Agents Learn to Use Tools Skillfully? [67.69996753743129]
SkillCraftは、高レベルのツールコンポジションの生成と再利用を可能にする、明示的にストレステストエージェントのベンチマークである。
SkillCraftは、定量次元と構造次元の両方に沿ってスケールする困難を伴う、現実的で、構成性の高いツール使用シナリオを特徴としている。
本稿では,エージェントがアトミックツールを実行可能なスキルに自動生成し,タスク内およびタスク間のキャッシュと再利用を可能にする軽量な評価プロトコルを提案する。
論文 参考訳(メタデータ) (2026-02-28T15:44:31Z) - SoK: Agentic Skills -- Beyond Tool Use in LLM Agents [6.356997609995175]
エージェントシステムは、より確実にロングホライゾンを実行するために、再利用可能な手続き能力、すなわちエージェントスキルに依存している。
本論文は,全ライフサイクルのスキルレイヤ(発見,実践,蒸留,貯蔵,構成,評価,更新)をマッピングする。
我々は、スキルベースのエージェントのセキュリティとガバナンスの影響を分析し、サプライチェーンのリスク、スキルペイロードによるインジェクションの促進、信頼度の高い実行をカバーします。
論文 参考訳(メタデータ) (2026-02-24T13:11:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。