論文の概要: Contractual Skills: A GovernSpec Design Framework for Enterprise AI Agents
- arxiv url: http://arxiv.org/abs/2605.22634v1
- Date: Thu, 21 May 2026 15:40:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.32768
- Title: Contractual Skills: A GovernSpec Design Framework for Enterprise AI Agents
- Title(参考訳): Contractual Skills: エンタープライズAIエージェントのためのGovernSpecデザインフレームワーク
- Authors: Ting Liu,
- Abstract要約: 本稿では,SKILL.mdファイルを可読性のあるタスクコントラクトとして整理するための,GovernSpecにインスパイアされた設計フレームワークであるコントラクトスキルを提案する。
このフレームワークは、コントラクトスキル、GovernSpec YAMLコントラクト、Model Context Protocolサーフェス、ツールアダプタ、ランタイムガードレール、トレース、評価システムの境界を明確にしている。
- 参考スコア(独自算出の注目度): 8.419155861590548
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Skills are increasingly used to package agent instructions, workflows, scripts, and reference materials. In enterprise settings, however, skills often need to express more than task guidance: they must make goals, input boundaries, permissions, evidence requirements, output contracts, quality criteria, verification steps, human approval points, and handoff rules inspectable. This paper proposes contractual skills, a GovernSpec-inspired design framework for organizing SKILL.md files as readable task contracts while preserving lightweight skill discovery and progressive loading. The framework clarifies the boundary between contractual skills, GovernSpec YAML contracts, Model Context Protocol surfaces, tool adapters, runtime guardrails, tracing, and evaluation systems. We evaluate the framework with two offline experiments. A text-generation study covers three enterprise skills, fifteen synthetic tasks, four instruction conditions, and eight generation models, yielding 960 outputs and 1680 cross-judge score records. Contractual skills outperform no-skill and minimal-skill baselines on all tested models. Relative to information-rich plain expanded skills, the gains are small and mixed, suggesting that contractual fields mainly improve checkability and maintainability rather than raw generation quality. A tool-calling challenge covers eight models and 192 simulated tool-call records. Skills usually reduce high-risk tool attempts, but model differences remain and runtime tool guardrails are still required. The results suggest that contractual skills are best understood as a governance layer that makes task intent, boundaries, and acceptance criteria explicit, not as a standalone safety mechanism.
- Abstract(参考訳): エージェント命令、ワークフロー、スクリプト、リファレンス資料のパッケージ化には、スキルがますます使われています。
目標、入力境界、許可、エビデンス要件、出力契約、品質基準、検証ステップ、人間承認ポイント、検査可能なハンドオフルールをしなければならない。
本稿では、軽量なスキル発見とプログレッシブローディングを保ちながら、SKILL.mdファイルを読みやすいタスクコントラクトとして整理する、GovernSpecにインスパイアされた設計フレームワークであるコントラクトスキルを提案する。
このフレームワークは、コントラクトスキル、GovernSpec YAMLコントラクト、Model Context Protocolサーフェス、ツールアダプタ、ランタイムガードレール、トレース、評価システムの境界を明確にしている。
このフレームワークを2つのオフライン実験で評価する。
テキスト生成調査では,3つの企業スキル,15の合成タスク,4つの指導条件,および8つの世代モデルを対象として,960のアウトプットと1680のクロスジャッジスコアを記録した。
契約スキルは、テストされたすべてのモデルにおいて、非スキルと最小スキルのベースラインを上回ります。
情報に富んだ平易な拡張スキルとは対照的に、ゲインは小さく混ざり合っており、契約分野は生の世代品質よりも、主にチェック容易性と保守性を改善することが示唆されている。
ツールコールの課題は、8つのモデルと192のシミュレーションツールコールレコードをカバーする。
スキルは通常、リスクの高いツールの試みを減らすが、モデルの違いは残り、実行時のツールガードレールは依然として必要である。
その結果、契約上のスキルは、独立した安全メカニズムとしてではなく、タスク意図、バウンダリ、受け入れ基準を明確にするガバナンス層として理解されていることが示唆された。
関連論文リスト
- SkillGenBench: Benchmarking Skill Generation Pipelines for LLM Agents [15.669318649782285]
我々は、統一されたプロトコルの下でスキル生成パイプラインを評価するためのベンチマークであるSkillGenBenchを紹介する。
ジェネレータは生のコーパスを受け取り、標準化されたスキルアーティファクトを生成し、固定ハーネスの下で実行される。
様々なスキルジェネレーション手法とバックボーンの実験は、かなりの性能変化を示している。
論文 参考訳(メタデータ) (2026-05-18T17:28:36Z) - SkillGraph: Skill-Augmented Reinforcement Learning for Agents via Evolving Skill Graphs [70.1970574147839]
有向グラフのノードとして再利用可能なスキルを表現するフレームワークであるSKILLGRAPHを提案する。
SKILLGRAPHは個々のスキルだけでなく、多段階意思決定をガイドできる順序付きスキルサブグラフも取得する。
実験により,SKILLGRAPHはメモリ拡張RL法に対して最先端の性能を実現することが示された。
論文 参考訳(メタデータ) (2026-05-12T12:21:49Z) - FORTIS: Benchmarking Over-Privilege in Agent Skills [68.34663362794069]
2段階にわたるエージェントスキルの過剰な特権を評価するベンチマークを提案する。
過剰に特権化された行動は例外ではなく規範であることがわかった。
その結果、エージェント動作を含むスキル層は、それ自体が現在のシステムにおける特権エスカレーションの主要な源であることを示唆している。
論文 参考訳(メタデータ) (2026-05-09T20:57:18Z) - From Context to Skills: Can Language Models Learn from Context Skillfully? [56.5857437218136]
Ctx2Skillは、コンテキスト固有のスキルを自律的に発見、洗練、選択する自己進化フレームワークである。
より良い文脈学習能力を得るために、どんな言語モデルにもプラグインできる。
論文 参考訳(メタデータ) (2026-04-30T09:53:15Z) - From Skill Text to Skill Structure: The Scheduling-Structural-Logical Representation for Agent Skills [5.327990835740087]
スケジューリング-構造論理(SSL)表現は、スキルレベルのスケジューリング信号、シーンレベルの実行構造、ロジックレベルのアクション/リソース使用エビデンスを歪めます。
SSL を LLM ベースの正規化器でインスタンス化し,SSL 由来の表現をスキル発見とリスク評価という2つのタスクで評価する。
論文 参考訳(メタデータ) (2026-04-27T04:25:15Z) - SoK: Agentic Skills -- Beyond Tool Use in LLM Agents [6.356997609995175]
エージェントシステムは、より確実にロングホライゾンを実行するために、再利用可能な手続き能力、すなわちエージェントスキルに依存している。
本論文は,全ライフサイクルのスキルレイヤ(発見,実践,蒸留,貯蔵,構成,評価,更新)をマッピングする。
我々は、スキルベースのエージェントのセキュリティとガバナンスの影響を分析し、サプライチェーンのリスク、スキルペイロードによるインジェクションの促進、信頼度の高い実行をカバーします。
論文 参考訳(メタデータ) (2026-02-24T13:11:38Z) - SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks [61.89812116484928]
エージェントスキルは、LLMエージェントを推論時に増強する手続き的知識の構造化パッケージである。
SkillsBenchは、11のドメインにわたる86のタスクのベンチマークであり、キュレートされたスキルと決定論的検証との組み合わせを示す。
キュレートされたスキルは平均パスレートを16.2ポイント(pp)上昇させるが、効果は領域によって大きく異なる。
自己生成スキルは平均的に何の利益も与えず、モデルが消費から得られる手続き的な知識を確実に説明できないことを示している。
論文 参考訳(メタデータ) (2026-02-13T07:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。