論文の概要: SkillRet: A Large-Scale Benchmark for Skill Retrieval in LLM Agents
- arxiv url: http://arxiv.org/abs/2605.05726v1
- Date: Thu, 07 May 2026 06:18:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.557412
- Title: SkillRet: A Large-Scale Benchmark for Skill Retrieval in LLM Agents
- Title(参考訳): SkillRet: LLMエージェントのスキル検索のための大規模ベンチマーク
- Authors: Hongcheol Cho, Ryangkyung Kang, Youngeun Kim,
- Abstract要約: LLMエージェントにおけるスキル検索のための大規模ベンチマークであるSkillRetを紹介する。
63,259のトレーニングサンプルと,相容れないスキルプールを備えた4,997のアセスメントクエリを提供する。
オフザシェルフモデルは現実的な大規模スキルライブラリに苦しむが、以前のスキル検索モデルは依然として相当なヘッドルームを残している。
- 参考スコア(独自算出の注目度): 8.628588436048952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As LLM agents are increasingly deployed with large libraries of reusable skills, selecting the right skill for a user request has become a critical systems challenge. In small libraries, users may invoke skills explicitly by name, but this assumption breaks down as skill ecosystems grow under tight context and latency budgets. Despite its practical importance, skill retrieval remains underexplored, with limited benchmarks and little understanding of retrieval behavior on realistic skill libraries. To address this gap, we introduce SkillRet, a large-scale benchmark for skill retrieval in LLM agents. SkillRet contains 17,810 public agent skills, organized with structured semantic tags and a two-level taxonomy spanning 6 major categories and 18 sub-categories. It provides 63,259 training samples and 4,997 evaluation queries with disjoint skill pools, enabling both benchmarking and retrieval-oriented training. Across a diverse set of retrievers, we find that skill retrieval remains far from solved: off-the-shelf models struggle on realistic large-scale skill libraries, and prior skill-retrieval models still leave substantial headroom. Task-specific fine-tuning on SkillRet substantially improves performance, improving NDCG@10 by +13.1 points over the strongest prior retriever and by +16.9 points over the strongest off-the-shelf retriever. Our analysis further suggests that these gains arise because fine-tuned models better focus on the small skill-relevant signals within long and noisy queries. These results establish SkillRet as a strong benchmark and foundation for future research on retrieval in large-scale agent systems.
- Abstract(参考訳): LLMエージェントは、再利用可能なスキルの大規模なライブラリでデプロイされることが多いため、ユーザ要求に適したスキルを選択することは、重要なシステム課題となっている。
小さなライブラリでは、ユーザは名前でスキルを明示的に呼び出すことができますが、スキルエコシステムが厳しい状況とレイテンシの予算の下で成長するにつれて、この仮定は崩壊します。
その実用的重要性にもかかわらず、スキル検索は未熟であり、ベンチマークは限られており、リアルなスキルライブラリーでの検索行動の理解がほとんどない。
このギャップに対処するために、LLMエージェントのスキル検索のための大規模ベンチマークであるSkillRetを紹介する。
SkillRetには17,810の公開エージェントスキルが含まれており、構造化セマンティックタグと6つの主要なカテゴリと18のサブカテゴリにまたがる2レベルの分類で組織されている。
63,259のトレーニングサンプルと4,997のスキルプールを備えた評価クエリを提供し、ベンチマークと検索指向のトレーニングの両方を可能にしている。
市販のモデルは現実的な大規模スキルライブラリに苦しむ一方で、それまでのスキル検索モデルは依然として相当なヘッドルームを残している。
SkillRetのタスク固有の微調整によりパフォーマンスが大幅に向上し、NDCG@10が最強の先行レトリバーで+13.1ポイント、最強のオフザシェルフレトリバーで+16.9ポイント向上した。
我々の分析は、細調整されたモデルが長大でノイズの多いクエリ内の小さなスキル関連信号によりフォーカスするため、これらの利益がもたらされることを示唆している。
これらの結果はSkillRetを強力なベンチマークとして確立し、大規模エージェントシステムにおける検索研究の基盤となる。
関連論文リスト
- SkillOS: Learning Skill Curation for Self-Evolving Agents [67.94374107466957]
本稿では,自己進化エージェントのスキルキュレーションを学習するための,経験駆動型RLトレーニングレシピであるSkillOSを提案する。
SkillOSは、凍結したエージェントエグゼキュータとトレーニング可能なスキルキュレーターを組み合わせて、蓄積したエクスペリエンスから外部SkillRepoを更新する。
SkillOSは、メモリフリーと強力なメモリベースラインを、有効性と効率の両方で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2026-05-07T17:31:50Z) - Skill Retrieval Augmentation for Agentic AI [28.71123853744993]
既存のエージェントシステムでは、スキルを取り入れるための主要な戦略は、コンテキストウィンドウ内で利用可能なスキルを列挙することである。
本稿では,SRA(Skill Retrieval Augmentation, SRA)を定式化し, エージェントが要求に応じて外部スキルコーパスから適切なスキルを動的に取得し, 取り入れ, 適用する新しいパラダイムについて述べる。
SRA-Benchは、完全なSRAパイプラインの評価のための最初のベンチマークであり、スキル検索、スキルの取り込み、エンドタスクの実行をカバーしている。
論文 参考訳(メタデータ) (2026-04-27T15:19:59Z) - How Well Do Agentic Skills Work in the Wild: Benchmarking LLM Skill Usage in Realistic Settings [29.3744517703302]
本研究は,段階的に挑戦的な現実的な環境下でのスキルユーティリティの総合的研究である。
その結果、設定がよりリアルになるにつれて、パフォーマンスは一貫して低下することがわかった。
クエリ固有の改善は、初期スキルが合理的な妥当性と品質を持つ場合に、性能を著しく回復することを示す。
論文 参考訳(メタデータ) (2026-04-06T00:10:30Z) - SkillCraft: Can LLM Agents Learn to Use Tools Skillfully? [67.69996753743129]
SkillCraftは、高レベルのツールコンポジションの生成と再利用を可能にする、明示的にストレステストエージェントのベンチマークである。
SkillCraftは、定量次元と構造次元の両方に沿ってスケールする困難を伴う、現実的で、構成性の高いツール使用シナリオを特徴としている。
本稿では,エージェントがアトミックツールを実行可能なスキルに自動生成し,タスク内およびタスク間のキャッシュと再利用を可能にする軽量な評価プロトコルを提案する。
論文 参考訳(メタデータ) (2026-02-28T15:44:31Z) - SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning [83.98129545309277]
生経験と政策改善のギャップを埋めるフレームワークであるSkillRLを提案する。
本手法では,階層型スキルライブラリであるSkillBankを構築するために,経験に基づく蒸留機構を導入する。
ALF、WebShop、および7つの検索強化タスクの実験結果は、SkillRLが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-02-09T03:17:17Z) - SAGE: Benchmarking and Improving Retrieval for Deep Research Agents [60.53966065867568]
SAGEは4つの科学領域にわたる1200のクエリからなる科学文献検索のためのベンチマークであり、20万の論文検索コーパスを備える。
6つのディープ・リサーチ・エージェントを評価し,全てのシステムが推論集約的な検索に苦しむことを発見した。
BM25は、既存のエージェントがキーワード指向のサブクエリを生成するため、LLMベースのレトリバーを約30%上回っている。
論文 参考訳(メタデータ) (2026-02-05T18:25:24Z) - Reinforcement Learning for Self-Improving Agent with Skill Library [14.717149089634718]
大規模言語モデル(LLM)に基づくエージェントは、複雑な推論とマルチターン相互作用において顕著な機能を示した。
有望なアプローチの1つは、エージェントが新しいスキルを学び、検証し、適用できるスキルライブラリを実装することである。
スキルライブラリによるエージェントの自己改善能力を高めるための強化学習(RL)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2025-12-18T21:58:19Z) - Design of Negative Sampling Strategies for Distantly Supervised Skill
Extraction [19.43668931500507]
本稿では,リテラルマッチングによる遠隔監視に基づく,スキル抽出のためのエンドツーエンドシステムを提案する。
ESCO分類を用いて、関連するスキルからネガティブな例を選択することで、最大の改善が得られます。
我々は,タスクのさらなる研究を促進するために,研究目的のベンチマークデータセットをリリースする。
論文 参考訳(メタデータ) (2022-09-13T13:37:06Z) - Hierarchical Kickstarting for Skill Transfer in Reinforcement Learning [27.69559938165733]
実践とホーミングのスキルは、人間の学習の基本的な要素だが、人工エージェントは、それらを実行するために特別に訓練されることはめったにない。
複雑な環境下での強化学習(RL)エージェントの訓練に、どのようにスキルを組み込むことができるかを検討する。
本実験により, 複雑な問題に対するエージェントの性能向上に寄与することが示唆された。
論文 参考訳(メタデータ) (2022-07-23T19:23:29Z) - Example-Driven Model-Based Reinforcement Learning for Solving
Long-Horizon Visuomotor Tasks [85.56153200251713]
長軸ビズモータタスクの完了に適したプリミティブスキルを学習するためのモデルベースRL手法EMBRを紹介する。
フランカ・エミカのロボットアームでは、EMBRによってロボットは85%の成功率で3つの長い水平視運動タスクを完了できることがわかった。
論文 参考訳(メタデータ) (2021-09-21T16:48:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。