論文の概要: SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?
- arxiv url: http://arxiv.org/abs/2603.00718v1
- Date: Sat, 28 Feb 2026 15:44:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.33785
- Title: SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?
- Title(参考訳): SkillCraft: LLMエージェントはツールを巧みに使えるか?
- Authors: Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye Teh,
- Abstract要約: SkillCraftは、高レベルのツールコンポジションの生成と再利用を可能にする、明示的にストレステストエージェントのベンチマークである。
SkillCraftは、定量次元と構造次元の両方に沿ってスケールする困難を伴う、現実的で、構成性の高いツール使用シナリオを特徴としている。
本稿では,エージェントがアトミックツールを実行可能なスキルに自動生成し,タスク内およびタスク間のキャッシュと再利用を可能にする軽量な評価プロトコルを提案する。
- 参考スコア(独自算出の注目度): 67.69996753743129
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world tool-using agents operate over long-horizon workflows with recurring structure and diverse demands, where effective behavior requires not only invoking atomic tools but also abstracting, and reusing higher-level tool compositions. However, existing benchmarks mainly measure instance-level success under static tool sets, offering limited insight into agents' ability to acquire such reusable skills. We address this gap by introducing SkillCraft, a benchmark explicitly stress-test agent ability to form and reuse higher-level tool compositions, where we call Skills. SkillCraft features realistic, highly compositional tool-use scenarios with difficulty scaled along both quantitative and structural dimensions, designed to elicit skill abstraction and cross-task reuse. We further propose a lightweight evaluation protocol that enables agents to auto-compose atomic tools into executable Skills, cache and reuse them inside and across tasks, thereby improving efficiency while accumulating a persistent library of reusable skills. Evaluating state-of-the-art agents on SkillCraft, we observe substantial efficiency gains, with token usage reduced by up to 80% by skill saving and reuse. Moreover, success rate strongly correlates with tool composition ability at test time, underscoring compositional skill acquisition as a core capability.
- Abstract(参考訳): 実世界のツール使用エージェントは、構造と多様な要求が繰り返される長い水平ワークフロー上で動作し、効果的な振る舞いは、アトミックツールを呼び出すだけでなく、抽象化や高レベルのツール構成の再利用も必要である。
しかし、既存のベンチマークは主に静的ツールセットの下でインスタンスレベルの成功を計測し、エージェントがそのような再利用可能なスキルを取得する能力について限定的な洞察を提供する。
SkillCraftは、Skillsと呼ばれる高レベルのツールコンポジションを作成、再利用する、明示的にストレステストを行うエージェントのベンチマークです。
SkillCraftは、スキルの抽象化とクロスタスクの再利用を促進するように設計された、量的および構造的な側面の両方に沿ってスケールする困難を伴う、現実的で構成性の高いツール使用シナリオを特徴とする。
さらに、エージェントがアトミックツールを実行可能なスキルに自動生成し、タスク内およびタスク間でキャッシュし、再利用できるようにする軽量な評価プロトコルを提案し、再利用可能なスキルのライブラリを蓄積しながら効率を向上する。
SkillCraftで最先端のエージェントを評価することで、トークンの使用量はスキルの節約と再利用によって最大80%削減される。
さらに、成功率は、テスト時のツール構成能力と強く相関し、コンポジションスキル獲得をコア能力として強調する。
関連論文リスト
- Uni-Skill: Building Self-Evolving Skill Repository for Generalizable Robotic Manipulation [32.86306309089796]
Uni-Skillはスキル中心のフレームワークで、スキル対応のプランニングをサポートする。
既存のスキルが不十分な場合、新しいスキル実装に対するUni-Skillリクエスト。
Skillは、大規模な非構造化ロボットビデオから派生したVerbNetにインスパイアされたリポジトリだ。
論文 参考訳(メタデータ) (2026-03-03T05:49:37Z) - SkillNet: Create, Evaluate, and Connect AI Skills [159.47504178122156]
SkillNetは、大規模にAIスキルを作成し、評価し、組織化するように設計されたオープンインフラストラクチャである。
私たちのインフラストラクチャは、20万を超えるスキルのリポジトリ、インタラクティブなプラットフォーム、多目的Pythonツールキットを統合しています。
論文 参考訳(メタデータ) (2026-02-26T14:24:02Z) - SoK: Agentic Skills -- Beyond Tool Use in LLM Agents [6.356997609995175]
エージェントシステムは、より確実にロングホライゾンを実行するために、再利用可能な手続き能力、すなわちエージェントスキルに依存している。
本論文は,全ライフサイクルのスキルレイヤ(発見,実践,蒸留,貯蔵,構成,評価,更新)をマッピングする。
我々は、スキルベースのエージェントのセキュリティとガバナンスの影響を分析し、サプライチェーンのリスク、スキルペイロードによるインジェクションの促進、信頼度の高い実行をカバーします。
論文 参考訳(メタデータ) (2026-02-24T13:11:38Z) - SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning [83.98129545309277]
生経験と政策改善のギャップを埋めるフレームワークであるSkillRLを提案する。
本手法では,階層型スキルライブラリであるSkillBankを構築するために,経験に基づく蒸留機構を導入する。
ALF、WebShop、および7つの検索強化タスクの実験結果は、SkillRLが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-02-09T03:17:17Z) - Evolving from Tool User to Creator via Training-Free Experience Reuse in Multimodal Reasoning [16.12114923351562]
エージェントをツールユーザからツールクリエータに変換する,トレーニング不要のフレームワークを提案する。
このアプローチは推論の経験を抽出し、再利用可能な資産に蒸留する。
ツールライブラリをメンテナンスするためのメモリ統合機構も導入する。
論文 参考訳(メタデータ) (2026-02-02T11:37:45Z) - AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning [66.24374176797075]
textbfAdaReasonerは、ツール固有の、あるいは明示的な教師付き行動ではなく、一般的な推論スキルとしてツールの使用を学ぶマルチモーダルモデルのファミリーである。
AdaReasonerは、(i)スケーラブルなデータキュレーションパイプラインによって、長期にわたる多段階のツールインタラクションにモデルを公開し、(ii)ツール-GRPO、(ii)ツールの選択とシークエンシングをエンドツーエンドの成功に基づいて優先順位付けする強化学習アルゴリズム、(iii)ツールの使用を動的に規制する適応学習メカニズムによって実現されている。
論文 参考訳(メタデータ) (2026-01-26T16:04:43Z) - Reinforcement Learning for Self-Improving Agent with Skill Library [14.717149089634718]
大規模言語モデル(LLM)に基づくエージェントは、複雑な推論とマルチターン相互作用において顕著な機能を示した。
有望なアプローチの1つは、エージェントが新しいスキルを学び、検証し、適用できるスキルライブラリを実装することである。
スキルライブラリによるエージェントの自己改善能力を高めるための強化学習(RL)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2025-12-18T21:58:19Z) - ToolBrain: A Flexible Reinforcement Learning Framework for Agentic Tools [4.751741320941162]
ToolBrainはフレキシブル強化学習(RL)を備えたエージェントモデルで使用されるコーチングツールのフレームワーク
GRPOやDPOといったRLアルゴリズムや教師あり学習など、幅広いトレーニング戦略をサポートしている。
効率的な開発のための大規模から小規模なモデルからの知識蒸留、ツール記述からのタスクの自動生成、シームレスなツール検索、UnslothによるQLoRAによる効率的な微調整パイプライン、ビット/バイトによる量子化推論など、有用な機能を備えている。
論文 参考訳(メタデータ) (2025-09-24T16:01:05Z) - Tool-R1: Sample-Efficient Reinforcement Learning for Agentic Tool Use [50.02614257515131]
大規模言語モデル(LLM)は、言語理解と推論において強力な能力を示している。
本稿では,LLMの汎用的,構成的,多段階的なツール使用を可能にする強化学習フレームワークであるTool-R1を提案する。
論文 参考訳(メタデータ) (2025-09-16T09:22:21Z) - Goal-Oriented Skill Abstraction for Offline Multi-Task Reinforcement Learning [25.18006424626525]
GO-Skillは、再利用可能なスキルを抽出し、活用し、知識伝達とタスクパフォーマンスを向上させるために設計された新しいアプローチである。
本稿では,目標志向のスキル抽出プロセスを通じて再利用可能なスキルを明らかにし,ベクトル量子化を活用して個別のスキルライブラリを構築する。
我々はこれらのスキルを階層的な政策学習を用いて統合し、個別のスキルを動的に編成して特定のタスクを遂行するハイレベルなポリシーの構築を可能にする。
論文 参考訳(メタデータ) (2025-07-09T07:54:49Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。