論文の概要: Contractual Skills: A GovernSpec Design Framework for Enterprise AI Agents
- arxiv url: http://arxiv.org/abs/2605.22634v2
- Date: Sun, 24 May 2026 12:02:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 16:32:37.965777
- Title: Contractual Skills: A GovernSpec Design Framework for Enterprise AI Agents
- Title(参考訳): Contractual Skills: エンタープライズAIエージェントのためのGovernSpecデザインフレームワーク
- Authors: Ting Liu,
- Abstract要約: 本稿では,SKILL.mdファイルを可読性のあるタスクコントラクトとして整理するための,GovernSpecにインスパイアされた設計フレームワークであるコントラクトスキルを提案する。
このフレームワークは、コントラクトスキル、GovernSpec YAMLコントラクト、モデルコンテキストプロトコル(MCP)サーフェス、ツールアダプタ、ランタイムガードレール、トレース、評価システムの境界を明確にしている。
- 参考スコア(独自算出の注目度): 8.419155861590548
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Skills have become a practical packaging mechanism for agent instructions, workflows, scripts, and reference materials. In enterprise settings, however, a skill often needs to express more than task guidance: goals, input boundaries, permissions, human approval points, evidence requirements, output contracts, quality criteria, verification steps, and handoff rules. This paper proposes contractual skills, a GovernSpec-inspired design framework for organizing SKILL.md files as readable task contracts while preserving lightweight skill discovery and progressive loading. The framework clarifies the boundary between contractual skills, GovernSpec YAML contracts, Model Context Protocol (MCP) surfaces, tool adapters, runtime guardrails, tracing, and evaluation systems. We evaluate the framework with three offline empirical studies. The first text-generation experiment covers three enterprise skills, fifteen synthetic tasks, four instruction conditions, and eight generation models, producing 960 outputs and 1680 cross-judge score records. The second study is a public-skill A/B expansion: eight public skills are compared with contractual rewrites across forty-eight synthetic tasks, six generation models, two repeats, 1152 outputs, and two complete judge files. In this setting, contractual skills raise mean quality from 4.692 to 4.914 and reduce critical-error rate from 0.083 to 0.013. The third study is an offline tool-calling challenge with eight models and 192 simulated tool-call records. The results suggest that contractual skills are best understood as a governance layer that makes task intent, boundaries, and acceptance criteria explicit, not as a standalone safety mechanism.
- Abstract(参考訳): スキルはエージェント命令、ワークフロー、スクリプト、リファレンス材料のための実用的なパッケージングメカニズムになっている。
しかし、エンタープライズ環境では、ゴール、入力境界、許可、人間の承認ポイント、エビデンス要件、アウトプット契約、品質基準、検証手順、およびハンドオフルールといった、タスクガイダンス以上のものを表現する必要がある場合が多い。
本稿では、軽量なスキル発見とプログレッシブローディングを保ちながら、SKILL.mdファイルを読みやすいタスクコントラクトとして整理する、GovernSpecにインスパイアされた設計フレームワークであるコントラクトスキルを提案する。
このフレームワークは、コントラクトスキル、GovernSpec YAMLコントラクト、モデルコンテキストプロトコル(MCP)サーフェス、ツールアダプタ、ランタイムガードレール、トレース、評価システムの境界を明確にしている。
この枠組みを3つのオフライン実証実験で評価した。
最初のテキスト生成実験は、3つのエンタープライズスキル、15つの合成タスク、4つの命令条件、8つの世代モデルを含み、960の出力と1680のクロスジャッジスコアを出力する。
第2の研究では、パブリックスキルのA/B拡張として、8つの公開スキルを48の合成タスク、第6世代のモデル、2つの繰り返し、152のアウトプット、2つの完全な判断ファイルの契約書と比較した。
この設定では、契約スキルは平均品質を4.692から4.914に引き上げ、臨界エラー率を0.083から0.013に下げる。
3つ目の研究は、8つのモデルと192のシミュレートされたツールコールレコードを備えた、オフラインのツールコールチャレンジである。
その結果、契約上のスキルは、独立した安全メカニズムとしてではなく、タスク意図、バウンダリ、受け入れ基準を明確にするガバナンス層として理解されていることが示唆された。
関連論文リスト
- SkillGenBench: Benchmarking Skill Generation Pipelines for LLM Agents [15.669318649782285]
我々は、統一されたプロトコルの下でスキル生成パイプラインを評価するためのベンチマークであるSkillGenBenchを紹介する。
ジェネレータは生のコーパスを受け取り、標準化されたスキルアーティファクトを生成し、固定ハーネスの下で実行される。
様々なスキルジェネレーション手法とバックボーンの実験は、かなりの性能変化を示している。
論文 参考訳(メタデータ) (2026-05-18T17:28:36Z) - SkillGraph: Skill-Augmented Reinforcement Learning for Agents via Evolving Skill Graphs [70.1970574147839]
有向グラフのノードとして再利用可能なスキルを表現するフレームワークであるSKILLGRAPHを提案する。
SKILLGRAPHは個々のスキルだけでなく、多段階意思決定をガイドできる順序付きスキルサブグラフも取得する。
実験により,SKILLGRAPHはメモリ拡張RL法に対して最先端の性能を実現することが示された。
論文 参考訳(メタデータ) (2026-05-12T12:21:49Z) - FORTIS: Benchmarking Over-Privilege in Agent Skills [68.34663362794069]
2段階にわたるエージェントスキルの過剰な特権を評価するベンチマークを提案する。
過剰に特権化された行動は例外ではなく規範であることがわかった。
その結果、エージェント動作を含むスキル層は、それ自体が現在のシステムにおける特権エスカレーションの主要な源であることを示唆している。
論文 参考訳(メタデータ) (2026-05-09T20:57:18Z) - From Context to Skills: Can Language Models Learn from Context Skillfully? [56.5857437218136]
Ctx2Skillは、コンテキスト固有のスキルを自律的に発見、洗練、選択する自己進化フレームワークである。
より良い文脈学習能力を得るために、どんな言語モデルにもプラグインできる。
論文 参考訳(メタデータ) (2026-04-30T09:53:15Z) - From Skill Text to Skill Structure: The Scheduling-Structural-Logical Representation for Agent Skills [5.327990835740087]
スケジューリング-構造論理(SSL)表現は、スキルレベルのスケジューリング信号、シーンレベルの実行構造、ロジックレベルのアクション/リソース使用エビデンスを歪めます。
SSL を LLM ベースの正規化器でインスタンス化し,SSL 由来の表現をスキル発見とリスク評価という2つのタスクで評価する。
論文 参考訳(メタデータ) (2026-04-27T04:25:15Z) - SoK: Agentic Skills -- Beyond Tool Use in LLM Agents [6.356997609995175]
エージェントシステムは、より確実にロングホライゾンを実行するために、再利用可能な手続き能力、すなわちエージェントスキルに依存している。
本論文は,全ライフサイクルのスキルレイヤ(発見,実践,蒸留,貯蔵,構成,評価,更新)をマッピングする。
我々は、スキルベースのエージェントのセキュリティとガバナンスの影響を分析し、サプライチェーンのリスク、スキルペイロードによるインジェクションの促進、信頼度の高い実行をカバーします。
論文 参考訳(メタデータ) (2026-02-24T13:11:38Z) - SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks [61.89812116484928]
エージェントスキルは、LLMエージェントを推論時に増強する手続き的知識の構造化パッケージである。
SkillsBenchは、11のドメインにわたる86のタスクのベンチマークであり、キュレートされたスキルと決定論的検証との組み合わせを示す。
キュレートされたスキルは平均パスレートを16.2ポイント(pp)上昇させるが、効果は領域によって大きく異なる。
自己生成スキルは平均的に何の利益も与えず、モデルが消費から得られる手続き的な知識を確実に説明できないことを示している。
論文 参考訳(メタデータ) (2026-02-13T07:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。