論文の概要: Skill Retrieval Augmentation for Agentic AI
- arxiv url: http://arxiv.org/abs/2604.24594v1
- Date: Mon, 27 Apr 2026 15:19:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.116213
- Title: Skill Retrieval Augmentation for Agentic AI
- Title(参考訳): エージェントAIのためのスキル検索強化
- Authors: Weihang Su, Jianming Long, Qingyao Ai, Yichen Tang, Changyue Wang, Yiteng Tu, Yiqun Liu,
- Abstract要約: 既存のエージェントシステムでは、スキルを取り入れるための主要な戦略は、コンテキストウィンドウ内で利用可能なスキルを列挙することである。
本稿では,SRA(Skill Retrieval Augmentation, SRA)を定式化し, エージェントが要求に応じて外部スキルコーパスから適切なスキルを動的に取得し, 取り入れ, 適用する新しいパラダイムについて述べる。
SRA-Benchは、完全なSRAパイプラインの評価のための最初のベンチマークであり、スキル検索、スキルの取り込み、エンドタスクの実行をカバーしている。
- 参考スコア(独自算出の注目度): 28.71123853744993
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As large language models (LLMs) evolve into agentic problem solvers, they increasingly rely on external, reusable skills to handle tasks beyond their native parametric capabilities. In existing agent systems, the dominant strategy for incorporating skills is to explicitly enumerate available skills within the context window. However, this strategy fails to scale: as skill corpora expand, context budgets are consumed rapidly, and the agent becomes markedly less accurate in identifying the right skill. To this end, this paper formulates Skill Retrieval Augmentation (SRA), a new paradigm in which agents dynamically retrieve, incorporate, and apply relevant skills from large external skill corpora on demand. To make this problem measurable, we construct a large-scale skill corpus and introduce SRA-Bench, the first benchmark for decomposed evaluation of the full SRA pipeline, covering skill retrieval, skill incorporation, and end-task execution. SRA-Bench contains 5,400 capability-intensive test instances and 636 manually constructed gold skills, which are mixed with web-collected distractor skills to form a large-scale corpus of 26,262 skills. Extensive experiments show that retrieval-based skill augmentation can substantially improve agent performance, validating the promise of the paradigm. At the same time, we uncover a fundamental gap in skill incorporation: current LLM agents tend to load skills at similar rates, regardless of whether a gold skill is retrieved or whether the task actually requires external capabilities. This shows that the bottleneck in skill augmentation lies not only in retrieval but also in the base model's ability to determine which skill to load and when external loading is actually needed. These findings position SRA as a distinct research problem and establish a foundation for the scalable augmentation of capabilities in future agent systems.
- Abstract(参考訳): 大規模言語モデル(LLM)がエージェント的問題解決へと進化するにつれて、彼らはますます、独自のパラメトリック能力を超えたタスクを処理するために、外部で再利用可能なスキルに依存している。
既存のエージェントシステムでは、スキルを取り入れるための主要な戦略は、コンテキストウィンドウ内で利用可能なスキルを明示的に列挙することである。
しかし、この戦略はスケールしない: スキルコーパスが拡大するにつれて、コンテキスト予算が急速に消費され、エージェントが適切なスキルを特定するのに顕著に精度が低下する。
この目的のために、エージェントが要求に応じて大きな外部スキルコーパスから関連スキルを動的に取り出し、組み入れ、適用する新しいパラダイムであるSRA(Skill Retrieval Augmentation)を定式化する。
そこで本研究では,大規模スキルコーパスの構築と,SRAパイプラインの分解評価のための最初のベンチマークであるSRA-Benchを導入する。
SRA-Benchには5,400の能力集中型テストインスタンスと636の手作業で作られた金のスキルが含まれており、これらはウェブで収集されたイントラクタスキルと混ざり合い、26,262の大規模なコーパスを形成している。
広範囲な実験により、検索に基づくスキル強化はエージェントのパフォーマンスを大幅に改善し、パラダイムの約束を検証できることが示されている。
同時に、現在のLLMエージェントは、金のスキルが回収されるか、そのタスクが実際に外部能力を必要とするかに関わらず、同様の速度でスキルをロードする傾向にある。
これは、スキル強化のボトルネックは、検索だけでなく、ベースモデルのどのスキルをロードするか、実際に外部のローディングが必要なのかを判断する能力にも関係していることを示している。
これらの知見は、SRAを別個の研究課題として位置づけ、将来のエージェントシステムにおけるスケーラビリティ向上の基礎を確立した。
関連論文リスト
- How Well Do Agentic Skills Work in the Wild: Benchmarking LLM Skill Usage in Realistic Settings [29.3744517703302]
本研究は,段階的に挑戦的な現実的な環境下でのスキルユーティリティの総合的研究である。
その結果、設定がよりリアルになるにつれて、パフォーマンスは一貫して低下することがわかった。
クエリ固有の改善は、初期スキルが合理的な妥当性と品質を持つ場合に、性能を著しく回復することを示す。
論文 参考訳(メタデータ) (2026-04-06T00:10:30Z) - SkillAttack: Automated Red Teaming of Agent Skills through Attack Path Refinement [66.44008181092832]
LLMベースのエージェントシステムは、その能力を拡張するためにオープンレジストリからのエージェントスキルにますます依存している。
SkillAttackは、敵のプロンプトを通じて、スキル脆弱性の脆弱性を検証できるフレームワークである。
論文 参考訳(メタデータ) (2026-04-05T06:25:11Z) - SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization [61.37478254738943]
推論時のスキル向上は基本的に制限されている。
SKILL0は,スキル内部化のためのコンテキスト内強化学習フレームワークである。
SKILL0は標準のRLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2026-04-02T17:03:05Z) - EvoSkills: Self-Evolving Agent Skills via Co-Evolutionary Verification [85.3692584167951]
Anthropicは、LLMエージェントが多段階のプロフェッショナルタスクに取り組むためのスキルの概念を提案する。
ツールは単一の自己完結型関数であり、スキルは相互依存型多ファイルアーティファクトの構造化バンドルである。
EvoSkillsは、エージェントが複雑なマルチファイルスキルパッケージを自律的に構築できる自己進化型スキルフレームワークである。
論文 参考訳(メタデータ) (2026-04-02T06:43:20Z) - SkillCraft: Can LLM Agents Learn to Use Tools Skillfully? [67.69996753743129]
SkillCraftは、高レベルのツールコンポジションの生成と再利用を可能にする、明示的にストレステストエージェントのベンチマークである。
SkillCraftは、定量次元と構造次元の両方に沿ってスケールする困難を伴う、現実的で、構成性の高いツール使用シナリオを特徴としている。
本稿では,エージェントがアトミックツールを実行可能なスキルに自動生成し,タスク内およびタスク間のキャッシュと再利用を可能にする軽量な評価プロトコルを提案する。
論文 参考訳(メタデータ) (2026-02-28T15:44:31Z) - SkillNet: Create, Evaluate, and Connect AI Skills [159.47504178122156]
SkillNetは、大規模にAIスキルを作成し、評価し、組織化するように設計されたオープンインフラストラクチャである。
私たちのインフラストラクチャは、20万を超えるスキルのリポジトリ、インタラクティブなプラットフォーム、多目的Pythonツールキットを統合しています。
論文 参考訳(メタデータ) (2026-02-26T14:24:02Z) - Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward [5.124116559484265]
モノリシックな言語モデルからモジュール化された、スキルを持ったエージェントへの移行は、大規模言語モデル(LLM)の実際のデプロイ方法に決定的な変化をもたらす。
すべての手続き的知識をモデルウェイト内にエンコードするのではなく、エージェントスキルは、再トレーニングせずに動的機能拡張を可能にする。
この調査は、エージェントスキルのランドスケープを包括的に扱うもので、ここ数ヶ月で急速に進化してきた。
論文 参考訳(メタデータ) (2026-02-12T21:33:25Z) - Reinforcement Learning for Self-Improving Agent with Skill Library [14.717149089634718]
大規模言語モデル(LLM)に基づくエージェントは、複雑な推論とマルチターン相互作用において顕著な機能を示した。
有望なアプローチの1つは、エージェントが新しいスキルを学び、検証し、適用できるスキルライブラリを実装することである。
スキルライブラリによるエージェントの自己改善能力を高めるための強化学習(RL)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2025-12-18T21:58:19Z) - A Theory for Emergence of Complex Skills in Language Models [56.947273387302616]
今日のAI製品の主要な要因は、パラメータセットとトレーニングコーパスのスケールアップ時に、言語モデルに新たなスキルが現れることだ。
本稿では,LSMの有名な(かつ実証的な)スケーリング法則と単純な統計的枠組みを用いて,その出現を解析する。
論文 参考訳(メタデータ) (2023-07-29T09:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。