論文の概要: AIP: A Graph Representation for Learning and Governing Agent Skills
- arxiv url: http://arxiv.org/abs/2606.04781v1
- Date: Wed, 03 Jun 2026 12:02:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.733987
- Title: AIP: A Graph Representation for Learning and Governing Agent Skills
- Title(参考訳): AIP: エージェントスキルの学習と統治のためのグラフ表現
- Authors: Zachary Blumenfeld, Jim Webber,
- Abstract要約: 現在、エージェントスキルは、エージェントがすべてのセッションでどのように振る舞うかを読み、解釈し、再導出する必要があるフリーフォームの散文で構成されている。
これは、実装が重いタスクに対する信頼性の低下と、スキル創造と改善の難しさの2つの複合コストを課します。
Agent Instruction Protocol (AIP) は両方とも、有向実行グラフとしてスキルをモデル化することで対処する。
コンパイラのメタスキルは、既存の人書きスキルをこの形式に変換する。
- 参考スコア(独自算出の注目度): 1.1458853556386797
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Agent Skills today consist largely of free-form prose requiring the agent to read, interpret, and re-derive how to act in every session. This imposes two compounding costs: reduced reliability on implementation-heavy tasks, and difficulty in skill creation and improvement, since editing prose is a fragile process that both humans and agents struggle with, particularly for domain-specific procedural knowledge underrepresented in model training. The Agent Instruction Protocol (AIP) addresses both by modeling a skill as a directed execution graph: discrete steps as nodes backed by deterministic scripts or natural-language descriptions, connected by explicit typed input/output edges, and governed by a schema-validated YAML specification. A compiler meta-skill translates existing human-written skills into this form. The benefits are twofold. First, compiling human-written skills to AIP raised Claude Sonnet's mean task reward from 0.60 to 0.71 and pass rate from 53% to 67% across 27 real agent tasks from SkillsBench - a statistically significant gain (Wilcoxon signed-rank p = 0.011), winning 12 tasks to 2 with 13 ties - often in less wall-clock time. The graph delivers vetted, runnable units to the agent rather than asking it to re-derive code, commands, and tool calls from natural language. Second, on creation and improvement, because each skill is schema-validated, functionally testable, and addressable node-by-node, failures can be diagnosed and repaired precisely. Two authored-skill failures were traced to the script level. After adjusting the AIP spec and recompiling, both recovered with zero regressions (one task going from 0/5 to 5/5), turning skill improvement into a measurable tuning loop rather than a prose rewrite. That same graph structure supports corpus-level governance and skill introspection, and provides a natural action space for reinforcement learning over skills.
- Abstract(参考訳): 現在、エージェントスキルは、エージェントがすべてのセッションでどのように振る舞うかを読み、解釈し、再導出する必要があるフリーフォームの散文で構成されている。
これは2つの複合コストを課している: 実装が重いタスクに対する信頼性の低減、そして、技術創出と改善の難しさ、そして、編集のプロセスは、人間とエージェントの両方が苦労する脆弱なプロセスであり、特にモデルトレーニングで不足しているドメイン固有の手続き的知識に対してである。
Agent Instruction Protocol (AIP)は、スキルを有向実行グラフとしてモデル化することで、双方に対処する: 決定論的スクリプトや自然言語記述によるノードとしての個別ステップ、明示的な型付け入力/出力エッジによって接続され、スキーマ検証されたYAML仕様によって管理される。
コンパイラのメタスキルは、既存の人書きスキルをこの形式に変換する。
利点は2つある。
まず、人手書きのスキルをAIPにコンパイルすることで、Claude Sonnet氏の平均タスク報酬は0.60から0.71に上昇し、SkillsBench氏の27の実際のエージェントタスクで53%から67%に上昇した(Wilcoxon sign-rank p = 0.011)。
このグラフは、自然言語からコード、コマンド、ツール呼び出しを再帰させるのではなく、検証済みで実行可能なユニットをエージェントに配信する。
第二に、各スキルがスキーマ検証され、機能的にテスト可能で、アドレス対応可能なノードバイノードであるため、作成と改善において、障害の正確な診断と修正が可能である。
著者による2つの失敗は、スクリプトレベルまで遡る。
AIP仕様の調整と再コンパイルの後、どちらもゼロレグレッション(0/5から5/5までのタスク1つ)で回復し、スキル改善を散文の書き直しではなく測定可能なチューニングループに変換する。
同じグラフ構造は、コーパスレベルのガバナンスとスキルイントロスペクションをサポートし、スキルよりも強化学習のための自然なアクションスペースを提供する。
関連論文リスト
- COLLEAGUE.SKILL: Automated AI Skill Generation via Expert Knowledge Distillation [58.84646485020439]
人為的なAIスキルを生成するための自動トレース・ツー・スキル蒸留システムを提案する。
COLLEAGUE.SKILLは、実践、メンタルモデル、意思決定のための能力トラックと、コミュニケーションスタイル、インタラクションルール、修正履歴のための有界な行動トラックの2つのトラックを持つバージョン付きのスキルパッケージを生成する。
論文 参考訳(メタデータ) (2026-05-29T12:59:08Z) - SkillGraph: Skill-Augmented Reinforcement Learning for Agents via Evolving Skill Graphs [70.1970574147839]
有向グラフのノードとして再利用可能なスキルを表現するフレームワークであるSKILLGRAPHを提案する。
SKILLGRAPHは個々のスキルだけでなく、多段階意思決定をガイドできる順序付きスキルサブグラフも取得する。
実験により,SKILLGRAPHはメモリ拡張RL法に対して最先端の性能を実現することが示された。
論文 参考訳(メタデータ) (2026-05-12T12:21:49Z) - From Context to Skills: Can Language Models Learn from Context Skillfully? [56.5857437218136]
Ctx2Skillは、コンテキスト固有のスキルを自律的に発見、洗練、選択する自己進化フレームワークである。
より良い文脈学習能力を得るために、どんな言語モデルにもプラグインできる。
論文 参考訳(メタデータ) (2026-04-30T09:53:15Z) - WebXSkill: Skill Learning for Autonomous Web Agents [104.76374637691212]
WebXSkillは、コードベースのスキルと自然言語ガイダンスのギャップを埋めるフレームワークである。
WebArenaとWebVoyagerでは、WebXSkillはタスク成功率をベースラインで最大9.8と12.9ポイント改善する。
論文 参考訳(メタデータ) (2026-04-14T21:48:15Z) - SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization [61.37478254738943]
推論時のスキル向上は基本的に制限されている。
SKILL0は,スキル内部化のためのコンテキスト内強化学習フレームワークである。
SKILL0は標準のRLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2026-04-02T17:03:05Z) - Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills [21.971456179996093]
Trace2Skillは、人間の専門家がいかにスキルを作成できるかを反映するフレームワークです。
個々のトラジェクトリにシーケンシャルに反応する代わりに、Trace2Skillは並列なサブエージェント群を派遣して、さまざまな実行プールを分析する。
トラジェクトリ固有のレッスンを抽出し、階層的にそれらをインダクティブ推論を通じて統合され、コンフリクトフリーなスキルディレクトリに集約する。
論文 参考訳(メタデータ) (2026-03-26T08:26:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。