Fugu-MT 論文翻訳(概要): SkillRouter: Skill Routing for LLM Agents at Scale

論文の概要: SkillRouter: Skill Routing for LLM Agents at Scale

arxiv url: http://arxiv.org/abs/2603.22455v4
Date: Wed, 01 Apr 2026 10:03:20 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-02 16:44:31.56586
Title: SkillRouter: Skill Routing for LLM Agents at Scale
Title（参考訳）: SkillRouter: LLMエージェントのスケールでのスキルルーティング
Authors: YanZhao Zheng, ZhenTao Zhang, Chao Ma, YuanQiang Yu, JiHuai Zhu, Yong Wu, Tianze Xu, Baohua Dong, Hangcheng Zhu, Ruohui Huang, Gang Yu,
Abstract要約: ユーザタスクが与えられたら、システムは、下流の計画や実行の前に、関連するスキルを特定する必要がある。既存のエージェントスタックはプログレッシブな開示に依存しており、完全な実装ボディを隠蔽しながら、スキル名と記述のみを公開する。 1.2Bのコンパクトなフルテキスト検索/参照パイプラインであるSkillを提示する。
参考スコア（独自算出の注目度）: 18.540967600258607
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reusable skills let LLM agents package task-specific procedures, tool affordances, and execution guidance into modular building blocks. As skill ecosystems grow to tens of thousands of entries, exposing every skill at inference time becomes infeasible. This creates a skill-routing problem: given a user task, the system must identify relevant skills before downstream planning or execution. Existing agent stacks often rely on progressive disclosure, exposing only skill names and descriptions while hiding the full implementation body. We examine this design choice on a SkillsBench-derived benchmark with approximately 80K candidate skills, targeting the practically important setting of large skill registries with heavy overlap. Across representative sparse, dense, and reranking baselines on this setting, hiding the skill body causes a 31--44 percentage point drop in routing accuracy, showing that full skill text is a critical routing signal in this setting rather than a minor metadata refinement. Motivated by this finding, we present SkillRouter, a compact 1.2B full-text retrieve-and-rerank pipeline. SkillRouter achieves 74.0% Hit@1 on our benchmark -- the strongest average top-1 routing performance among the baselines we evaluate -- while using 13$\times$ fewer parameters and running 5.8$\times$ faster than the strongest base pipeline. The ranking gains further generalize to a supplementary benchmark independently constructed from three skill sources. In a complementary end-to-end study across four coding agents, routing gains transfer to improved task success, with larger gains for more capable agents.
Abstract（参考訳）: 再利用可能なスキルにより、LLMエージェントはタスク固有のプロシージャ、ツールの余裕、実行ガイダンスをモジュラービルディングブロックにパッケージできる。スキルエコシステムが数万のエントリに成長するにつれて、推論時にすべてのスキルを公開することは不可能になります。ユーザタスクが与えられたら、システムは下流の計画や実行の前に、関連するスキルを特定しなければなりません。既存のエージェントスタックはプログレッシブな開示に依存しており、完全な実装ボディを隠蔽しながら、スキル名と記述のみを公開する。本稿では,SkillsBenchをベースとした約80Kの候補スキルを持つベンチマークにおいて,この設計選択について検討する。この設定では、代表的スパース、密度、リランクベースライン全体にわたって、スキルボディを隠蔽すると、ルーティング精度が31～44パーセント低下し、この設定では、完全なスキルテキストが小さなメタデータの洗練ではなく、重要なルーティング信号であることが示される。この発見に触発されたSkillRouterは、1.2Bの完全テキスト検索/参照パイプラインである。 SkillRouterは、ベンチマークで74.0%のHit@1を達成した -- 評価対象のベースラインの中で最強のトップ1ルーティングパフォーマンスである -- に対して、13$\times$より少ないパラメータを使用し、5.8$\times$を最強のベースパイプラインよりも高速に実行する。ランキングゲインは、3つのスキルソースから独立して構築された補足ベンチマークにさらに一般化される。 4つのコーディングエージェントを対象とした補完的なエンドツーエンド調査では、ルーティングのゲインがタスク成功のために転送され、より有能なエージェントには大きなゲインが与えられる。

関連論文リスト

SWE-Skills-Bench: Do Agent Skills Actually Help in Real-World Software Engineering? [27.583012125198568]
SWE-Skills-Benchは、現実のソフトウェア工学におけるエージェントスキルの限界効用を分離する最初の要件駆動ベンチマークである。 49の公開SWEスキルと、特定のコミットにピン留めされた本物のGitHubリポジトリと、明確な受け入れ基準を持つ要件ドキュメントをペアリングする。以上の結果から,スキルインジェクションのメリットは,迅速な採用よりもはるかに限定的であることが示唆された。
論文参考訳（メタデータ） (2026-03-16T15:16:31Z)
OSExpert: Computer-Use Agents Learning Professional Skills via Exploration [55.660669638732024]
汎用コンピュータ利用エージェントは、人間の専門家ほど役に立たない。本研究では,環境の単位関数を探索し,検証するための深度優先探索アルゴリズムを提案する。エージェントは、合成タスクのカリキュラムを自己構築するために、ユニットスキル間の構成性を利用する。
論文参考訳（メタデータ） (2026-03-09T05:27:56Z)
EvoSkill: Automated Skill Discovery for Multi-Agent Systems [6.319876096746374]
エージェントスキルを自動的に発見・洗練する自己進化型フレームワークである textbfEvoSkill を紹介する。 EvoSkillは実行障害を分析し、新しいスキルや既存のスキルへの編集を提案し、それらを構造化された再利用可能なスキルフォルダに実体化する。われわれはEvoSkillを米国財務データの根拠となる推論ベンチマークであるOfficeQAと、ノイズの多い検索ベンチマークであるSealQAの2つのベンチマークで評価した。
論文参考訳（メタデータ） (2026-03-03T09:07:22Z)
Organizing, Orchestrating, and Benchmarking Agent Skills at Ecosystem Scale [28.43462779191672]
AgentSkillOSは、スキル選択、オーケストレーション、エコシステムレベルの管理のための原則化されたフレームワークである。 AgentSkillOSには2つのステージがある。 (i) スキルを機能ツリーに整理する管理スキル。 (ii) DAGベースのパイプラインを通じて複数のスキルを検索し、オーケストレーションし、実行するタスクの解決。
論文参考訳（メタデータ） (2026-03-02T18:46:47Z)
SkillNet: Create, Evaluate, and Connect AI Skills [159.47504178122156]
SkillNetは、大規模にAIスキルを作成し、評価し、組織化するように設計されたオープンインフラストラクチャである。私たちのインフラストラクチャは、20万を超えるスキルのリポジトリ、インタラクティブなプラットフォーム、多目的Pythonツールキットを統合しています。
論文参考訳（メタデータ） (2026-02-26T14:24:02Z)
SoK: Agentic Skills -- Beyond Tool Use in LLM Agents [6.356997609995175]
エージェントシステムは、より確実にロングホライゾンを実行するために、再利用可能な手続き能力、すなわちエージェントスキルに依存している。本論文は,全ライフサイクルのスキルレイヤ(発見,実践,蒸留,貯蔵,構成,評価,更新)をマッピングする。我々は、スキルベースのエージェントのセキュリティとガバナンスの影響を分析し、サプライチェーンのリスク、スキルペイロードによるインジェクションの促進、信頼度の高い実行をカバーします。
論文参考訳（メタデータ） (2026-02-24T13:11:38Z)
SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning [83.98129545309277]
生経験と政策改善のギャップを埋めるフレームワークであるSkillRLを提案する。本手法では,階層型スキルライブラリであるSkillBankを構築するために,経験に基づく蒸留機構を導入する。 ALF、WebShop、および7つの検索強化タスクの実験結果は、SkillRLが最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2026-02-09T03:17:17Z)
WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning [73.91893534088798]
WebSailorは、この重要な機能を組み込むように設計された、完全なポストトレーニング方法論である。我々のアプローチは、構造化サンプリングと情報難読化によって、新しい、不確実なタスクを生成することである。 WebSailorは複雑な情報検索タスクにおいて、すべてのオープンソースエージェントを著しく上回る。
論文参考訳（メタデータ） (2025-09-16T17:57:03Z)
Design of Negative Sampling Strategies for Distantly Supervised Skill Extraction [19.43668931500507]
本稿では,リテラルマッチングによる遠隔監視に基づく,スキル抽出のためのエンドツーエンドシステムを提案する。 ESCO分類を用いて、関連するスキルからネガティブな例を選択することで、最大の改善が得られます。我々は,タスクのさらなる研究を促進するために,研究目的のベンチマークデータセットをリリースする。
論文参考訳（メタデータ） (2022-09-13T13:37:06Z)
Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文参考訳（メタデータ） (2021-10-20T22:29:32Z)
Knowledge Integration Networks for Action Recognition [58.548331848942865]
我々は,アクション認識のためのメインブランチと,人間のパースとシーン認識のための2つの補助ブランチからなる3分岐アーキテクチャを設計する。補助知識を中程度の畳み込み特徴に符号化するクロスブランチ統合(CBI)モジュールと、高レベルの文脈情報を効果的に融合するアクション知識グラフ(AKG)を含む2段階の知識符号化機構を提案する。 KINetは、大規模アクション認識ベンチマークKinetics-400の最先端性能を77.8%で達成している。
論文参考訳（メタデータ） (2020-02-18T10:20:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。