論文の概要: More Skills, Worse Agents? Skill Shadowing Degrades Performance When Expanding Skill Libraries
- arxiv url: http://arxiv.org/abs/2605.24050v1
- Date: Thu, 21 May 2026 23:33:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.560004
- Title: More Skills, Worse Agents? Skill Shadowing Degrades Performance When Expanding Skill Libraries
- Title(参考訳): より高度なスキル、より悪いエージェント? スキルのシャドウ化は、スキルライブラリを拡大する際のパフォーマンスを低下させる
- Authors: Hongwen Song, Song, Wei,
- Abstract要約: LLMエージェントは要求に応じてタスク固有の命令をロードすることができ、専門家でないユーザは自然言語を使ってドメイン固有のタスクを解決できる。
しかし、ライブラリが成長するにつれて、パフォーマンスは低下し、補助的なスキルの小さなセットから202スキルのライブラリにスケールアップすると、最大21%向上する。
エージェントがライブラリが拡大するにつれて間違ったスキルを頻繁に選択するEmphskill Shadowingと、拡張されたコンテキストが選択が正しい場合でも実行を劣化させるEmphcontextのオーバーヘッドという2つの効果について検討する。
- 参考スコア(独自算出の注目度): 2.0913288980562412
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Skill libraries allow LLM agents to load task-specific instructions on demand, letting non-expert users solve domain-specific tasks through natural language without knowing which skills exist or how they work. However, performance degrades as libraries grow -- by up to 21\% when scaling from a small set of helpful skills to a 202-skill library. In this work, we formulate this performance degradation as the pass rate drop between loading a library of known-helpful skills and the full library. Moreover, we propose to decompose the pass rate drop by conditioning on the skill(s) invocation -- which skills the agent selects during a trajectory -- into two effects: \emph{skill shadowing}, where the agent selects wrong skills more often as the library expands, and \emph{context overhead}, where the enlarged context degrades execution even when selection is correct. We derive upper bounds on both effects to characterize their magnitudes of impacts to the pass rate drop. Our empirical estimates of the effects and their upper bounds both show that the \emph{skill shadowing} effect grows with library size and significantly contributes to the performance degradation, whereas the \emph{context overhead} effect remains small and indistinguishable from zero. This observed asymmetry establishes that the skill selection failure, not the enlarged context, is the primary bottleneck when expanding the skill libraries.
- Abstract(参考訳): スキルライブラリにより、LLMエージェントは要求に応じてタスク固有の命令をロードすることができ、専門家でないユーザは、どのスキルがあるのか、どのように動作するのかを知らずに、自然言語を通じてドメイン固有のタスクを解決できる。
しかし、ライブラリが成長するにつれて、パフォーマンスは低下し、小さな有用なスキルセットから202スキルのライブラリにスケーリングすると、最大21\%向上する。
本研究では,この性能劣化を,既知スキルのライブラリと全ライブラリのロード間でのパスレート低下として定式化する。
さらに、エージェントがトラジェクトリ中に選択するスキルを2つのエフェクトに分解し、ライブラリが拡大するにつれてエージェントが間違ったスキルを頻繁に選択する「emph{skill shadowing」と、拡張されたコンテキストが正しい場合でも実行を低下させる「emph{context overhead}」に分解することを提案する。
両効果の上限を導出し, 通過速度低下に対する影響の大きさを特徴付ける。
この効果と上界の実験的評価は, ライブラリサイズが増加し, 性能劣化に大きく寄与することを示しているが, 効果は小さめであり, ゼロと区別できない。
この観察された非対称性は、拡張されたコンテキストではなく、スキル選択の失敗が、スキルライブラリを拡張する際の主要なボトルネックであることを証明している。
関連論文リスト
- From Raw Experience to Skill Consumption: A Systematic Study of Model-Generated Agent Skills [46.76651106969111]
モデル生成スキルは平均的に有益であるが,非自明な負の伝達を示す。
モデルは強力な抽出器でありながら、弱い消費者、あるいはその逆もまた、モデルスケールやベースラインタスク強度とは無関係に、スキルユーティリティを持つことができる。
本研究は,これらの知見を,スキル抽出のガイドとなる具体的なエフェメタスキルに翻訳する。
論文 参考訳(メタデータ) (2026-05-22T17:59:12Z) - SkillOps: Managing LLM Agent Skill Libraries as Self-Maintaining Software Ecosystems [5.558878094816271]
大規模言語モデルエージェントは、多段階タスクのスキルライブラリにますます依存している。
これらのライブラリは、スキルの追加、再利用、パッチの適用、依存関係の変更に関連する永続的な欠陥を蓄積することができる。
本稿では,スキルライブラリをメンテナンスするためのメソッドに依存しないプラグインフレームワークであるSkillOpsを提案する。
論文 参考訳(メタデータ) (2026-05-13T16:02:25Z) - SkillGraph: Skill-Augmented Reinforcement Learning for Agents via Evolving Skill Graphs [70.1970574147839]
有向グラフのノードとして再利用可能なスキルを表現するフレームワークであるSKILLGRAPHを提案する。
SKILLGRAPHは個々のスキルだけでなく、多段階意思決定をガイドできる順序付きスキルサブグラフも取得する。
実験により,SKILLGRAPHはメモリ拡張RL法に対して最先端の性能を実現することが示された。
論文 参考訳(メタデータ) (2026-05-12T12:21:49Z) - Graph of Skills: Dependency-Aware Structural Retrieval for Massive Agent Skills [27.93279540484981]
Graph of Skills (GoS)は、大規模スキルライブラリのための推論時構造検索層である。
GoSはバニラのフルスキルローディングベースラインに対して平均報酬を43.6%改善した。
GoSは、バニラスキルローディングと単純なベクトル検索の両方を一貫して上回る。
論文 参考訳(メタデータ) (2026-04-07T02:09:11Z) - SkillX: Automatically Constructing Skill Knowledge Bases for Agents [27.56549031749266]
SkillXは、プラグアンドプレイのスキル知識ベースを構築するための、完全に自動化されたフレームワークである。
3つのシナジスティックなイノベーションに基づいて構築された、完全に自動化されたパイプラインを通じて運用される。
実験の結果、SkillKBは、より弱いベースエージェントにプラグインされた場合、タスクの成功と実行効率を一貫して改善している。
論文 参考訳(メタデータ) (2026-04-06T16:09:33Z) - SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization [61.37478254738943]
推論時のスキル向上は基本的に制限されている。
SKILL0は,スキル内部化のためのコンテキスト内強化学習フレームワークである。
SKILL0は標準のRLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2026-04-02T17:03:05Z) - SkillCraft: Can LLM Agents Learn to Use Tools Skillfully? [67.69996753743129]
SkillCraftは、高レベルのツールコンポジションの生成と再利用を可能にする、明示的にストレステストエージェントのベンチマークである。
SkillCraftは、定量次元と構造次元の両方に沿ってスケールする困難を伴う、現実的で、構成性の高いツール使用シナリオを特徴としている。
本稿では,エージェントがアトミックツールを実行可能なスキルに自動生成し,タスク内およびタスク間のキャッシュと再利用を可能にする軽量な評価プロトコルを提案する。
論文 参考訳(メタデータ) (2026-02-28T15:44:31Z) - STAR: Learning Diverse Robot Skill Abstractions through Rotation-Augmented Vector Quantization [87.77475595961154]
textbfSkill textbfTraining with textbfAugmented textbfRotation (textbfSTAR) は、スキル学習と構成の両方を進化させて複雑な振る舞いを完遂するフレームワークである。
論文 参考訳(メタデータ) (2025-06-04T11:54:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。