Fugu-MT 論文翻訳(概要): Organizing, Orchestrating, and Benchmarking Agent Skills at Ecosystem Scale

論文の概要: Organizing, Orchestrating, and Benchmarking Agent Skills at Ecosystem Scale

arxiv url: http://arxiv.org/abs/2603.02176v1
Date: Mon, 02 Mar 2026 18:46:47 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:57.035685
Title: Organizing, Orchestrating, and Benchmarking Agent Skills at Ecosystem Scale
Title（参考訳）: エコシステムスケールでの組織化、オーケストレーション、ベンチマークエージェントスキル
Authors: Hao Li, Chunjiang Mu, Jianhao Chen, Siyue Ren, Zhiyao Cui, Yiqun Zhang, Lei Bai, Shuyue Hu,
Abstract要約: AgentSkillOSは、スキル選択、オーケストレーション、エコシステムレベルの管理のための原則化されたフレームワークである。 AgentSkillOSには2つのステージがある。 (i) スキルを機能ツリーに整理する管理スキル。 (ii) DAGベースのパイプラインを通じて複数のスキルを検索し、オーケストレーションし、実行するタスクの解決。
参考スコア（独自算出の注目度）: 28.43462779191672
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid proliferation of Claude agent skills has raised the central question of how to effectively leverage, manage, and scale the agent skill ecosystem. In this paper, we propose AgentSkillOS, the first principled framework for skill selection, orchestration, and ecosystem-level management. AgentSkillOS comprises two stages: (i) Manage Skills, which organizes skills into a capability tree via node-level recursive categorization for efficient discovery; and (ii) Solve Tasks, which retrieves, orchestrates, and executes multiple skills through DAG-based pipelines. To evaluate the agent's ability to invoke skills, we construct a benchmark of 30 artifact-rich tasks across five categories: data computation, document creation, motion video, visual design, and web interaction. We assess the quality of task outputs using LLM-based pairwise evaluation, and the results are aggregated via a Bradley-Terry model to produce unified quality scores. Experiments across three skill ecosystem scales (200 to 200K skills) show that tree-based retrieval effectively approximates oracle skill selection, and that DAG-based orchestration substantially outperforms native flat invocation even when given the identical skill set.Our findings confirm that structured composition is the key to unlocking skill potential. Our GitHub repository is available at:https://github.com/ynulihao/AgentSkillOS.
Abstract（参考訳）: クロードエージェントスキルの急速な普及は、エージェントスキルのエコシステムを効果的に活用し、管理し、スケールするかという中心的な疑問を引き起こしている。本稿では,AgentSkillOSを提案する。AgentSkillOSは,スキル選択,オーケストレーション,エコシステムレベルの管理のための,最初の原則的フレームワークである。 AgentSkillOSには2つのステージがある。一効率的な発見のためのノードレベルの再帰的分類による能力木にスキルを編成する管理技術 (ii) DAGベースのパイプラインを通じて複数のスキルを検索し、オーケストレーションし、実行するタスクの解決。エージェントのスキル実行能力を評価するため,データ計算,文書作成,モーションビデオ,ビジュアルデザイン,Webインタラクションの5つのカテゴリにまたがって,30のアーティファクトに富んだタスクのベンチマークを構築した。 LLMに基づくペアワイズ評価を用いてタスク出力の品質を評価し、Bradley-Terryモデルを用いて結果を集約し、統一された品質スコアを生成する。 3つのスキルエコシステムスケール(200～200Kスキル)にわたる実験により、木に基づく検索は、オラクルスキルの選択を効果的に近似し、DAGベースのオーケストレーションは、同一スキルセットを与えられた場合でも、ネイティブフラットな実行を大幅に上回っていることが判明した。当社のGitHubリポジトリは、https://github.com/ynulihao/AgentSkillOS.comから入手可能です。

関連論文リスト

K^2-Agent: Co-Evolving Know-What and Know-How for Hierarchical Mobile Device Control [73.50217471850658]
K2-Agentは、計画と実行のための宣言的(何)および手続き的(どのように)知識を知り、共進化させることによって、人間のような認知をモデル化する階層的なフレームワークである。挑戦的なAndroidWorldベンチマークでは、K2-Agentは生とオープンソースのバックボーンのみを使用して76.1%の成功率を達成した。
論文参考訳（メタデータ） (2026-02-28T14:33:14Z)
SkillNet: Create, Evaluate, and Connect AI Skills [159.47504178122156]
SkillNetは、大規模にAIスキルを作成し、評価し、組織化するように設計されたオープンインフラストラクチャである。私たちのインフラストラクチャは、20万を超えるスキルのリポジトリ、インタラクティブなプラットフォーム、多目的Pythonツールキットを統合しています。
論文参考訳（メタデータ） (2026-02-26T14:24:02Z)
SoK: Agentic Skills -- Beyond Tool Use in LLM Agents [6.356997609995175]
エージェントシステムは、より確実にロングホライゾンを実行するために、再利用可能な手続き能力、すなわちエージェントスキルに依存している。本論文は,全ライフサイクルのスキルレイヤ(発見,実践,蒸留,貯蔵,構成,評価,更新)をマッピングする。我々は、スキルベースのエージェントのセキュリティとガバナンスの影響を分析し、サプライチェーンのリスク、スキルペイロードによるインジェクションの促進、信頼度の高い実行をカバーします。
論文参考訳（メタデータ） (2026-02-24T13:11:38Z)
SkillOrchestra: Learning to Route Agents via Skill Transfer [65.50924963973286]
スキルを意識したオーケストレーションのためのフレームワークであるSkillOrchestraを紹介します。 SkillOrchestraは、実行経験からきめ細かいスキルを学び、それらのスキルの下でエージェント固有の能力とコストをモデル化する。デプロイメントでは、オーケストレータが現在のインタラクションのスキル要件を推測し、明示的なパフォーマンスコストトレードオフの下でそれらを最も満足するエージェントを選択する。
論文参考訳（メタデータ） (2026-02-23T10:17:25Z)
SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning [83.98129545309277]
生経験と政策改善のギャップを埋めるフレームワークであるSkillRLを提案する。本手法では,階層型スキルライブラリであるSkillBankを構築するために,経験に基づく蒸留機構を導入する。 ALF、WebShop、および7つの検索強化タスクの実験結果は、SkillRLが最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2026-02-09T03:17:17Z)
Reinforcement Learning for Self-Improving Agent with Skill Library [14.717149089634718]
大規模言語モデル(LLM)に基づくエージェントは、複雑な推論とマルチターン相互作用において顕著な機能を示した。有望なアプローチの1つは、エージェントが新しいスキルを学び、検証し、適用できるスキルライブラリを実装することである。スキルライブラリによるエージェントの自己改善能力を高めるための強化学習(RL)に基づくアプローチを提案する。
論文参考訳（メタデータ） (2025-12-18T21:58:19Z)
eSapiens: A Platform for Secure and Auditable Retrieval-Augmented Generation [10.667949307405983]
eSapiensはAI(AI)プラットフォームで、ビジネス指向のトリフェクタ(プロプライエタリなデータ、運用、主要な言語モデル(LLM))を中心に開発されている。 eSapiensは、企業がAI資産を完全にコントロールし、AI知識の保持とデータセキュリティのためのすべてを社内に保持する。
論文参考訳（メタデータ） (2025-07-13T11:41:44Z)
What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities [56.646832992178105]
我々は、制御可能な複雑性のタスクを合成するための自動パイプラインを備えたクロスプラットフォームグラフベースのベンチマークであるOmniBenchを紹介した。 OmniEvalは、サブタスクレベルの評価、グラフベースのメトリクス、および10機能にわたる包括的なテストを含む多次元評価フレームワークである。我々のデータセットには、20のシナリオにわたる36万のグラフ構造化タスクが含まれており、人間の受け入れ率は91%に達する。
論文参考訳（メタデータ） (2025-06-10T15:59:38Z)
AgentSwift: Efficient LLM Agent Design via Value-guided Hierarchical Search [58.98450205734779]
大規模言語モデル(LLM)エージェントは、多様なドメインにまたがる強力な機能を示している。既存のエージェントサーチ手法には3つの大きな制限がある。これらの課題に対処するための包括的なフレームワークを導入します。
論文参考訳（メタデータ） (2025-06-06T12:07:23Z)
Kolb-Based Experiential Learning for Generalist Agents with Human-Level Kaggle Data Science Performance [81.05882480184587]
本稿では,自律エージェントに対するVygotskyのZPDを用いて,Kolbの学習サイクルの計算フレームワークを提案する。 Agent Kは、KolbとVygotskyにインスパイアされた人間の認知学習をうまく統合する第1のAIシステムである。金9個、銀8個、銅12個で、メダル獲得競争で金4個、銀4個を含む。エージェントKは、コルブとヴィーゴツキーにインスパイアされた人間の認知学習をうまく統合する第1のAIシステムである。
論文参考訳（メタデータ） (2024-11-05T23:55:23Z)
Agents meet OKR: An Object and Key Results Driven Agent System with Hierarchical Self-Collaboration and Self-Evaluation [25.308341461293857]
OKR-Agentは、タスク解決におけるLarge Language Models(LLM)の機能を強化するように設計されている。我々のフレームワークには、階層オブジェクトとキー結果の生成とマルチレベル評価という、2つの新しいモジュールが含まれています。
論文参考訳（メタデータ） (2023-11-28T06:16:30Z)
Tree Structure-Aware Few-Shot Image Classification via Hierarchical Aggregation [27.868736254566397]
我々は、プレテキストタスクを通して、数ショットの画像分類のための追加の特徴表現を学習する方法に焦点をあてる。この追加の知識は、数発の学習のパフォーマンスをさらに向上させることができる。本稿では,FSLとプレテキストタスクの関係を学習する階層木構造認識(HTS)手法を提案する。
論文参考訳（メタデータ） (2022-07-14T15:17:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。