論文の概要: Harnessing LLM Agents with Skill Programs
- arxiv url: http://arxiv.org/abs/2605.17734v1
- Date: Mon, 18 May 2026 01:35:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.505382
- Title: Harnessing LLM Agents with Skill Programs
- Title(参考訳): スキルプログラムによるLLMエージェントのハーネス化
- Authors: Hongjun Liu, Yifei Ming, Shafiq Joty, Chen Zhao,
- Abstract要約: HASPは、実行可能なプログラム関数(PF)にスキルをアップグレードする新しいフレームワークです。
PFは障害が発生しやすい状態を起動し、次のアクションを変更したり、修正コンテキストを注入する実行可能なガードレールとして機能する。
HASPは、Web検索、数学推論、コーディングタスクにおいて、トレーニング不要とトレーニングベースの両方の手法と比較して、大幅に向上している。
- 参考スコア(独自算出の注目度): 58.356514745548026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Equipping LLM agents with reusable skills derived from past experience has become a popular and successful approach for tackling complex and long-horizon tasks. However, such lessons are often encoded as textual guidance that remains largely advisory, lacking explicit mechanisms for when and how to intervene in the agent loop. To bridge the gap, we introduce HASP(Harnessing LLM Agents with Skill Programs), a new framework that upgrades skills into executable Program Functions (PFs). Rather than offering passive advice, PFs act as executable guardrails that activate on failure-prone states and modify the next action or inject corrective context. HASP is highly modular: it can be applied at inference time for direct agent-loop intervention, during post-training to provide structured supervision, or for self-improvement by evolving validated, teacher-reviewed PFs. Empirically, HASP drives substantial gains compared to both training-free and training-based methods on web-search, math reasoning, and coding tasks. For example, on web-search reasoning, inference-time PFs alone improve the average performance by 25% compared to (multi-loop) ReAct Agent, while post-training and controlled evolution achieve a 30.4% gain over Search-R1. To provide deeper insights into HASP, our mechanism analysis reveals how PFs trigger and intervene, how skills are internalized, and the requirement for stable skill library evolution.
- Abstract(参考訳): 過去の経験から得られた再利用可能なスキルを持つLLMエージェントの取得は、複雑で長期のタスクに対処するための人気があり、成功している。
しかしながら、このようなレッスンは、エージェントループにいつ、どのように介入するかを明確にするためのメカニズムが欠如している、ほとんど助言的のままのテキストガイダンスとしてエンコードされることが多い。
このギャップを埋めるために、我々はHASP(Harnessing LLM Agents with Skill Programs)を紹介します。
受動的アドバイスを提供する代わりに、PFは障害が発生しやすい状態を起動し、次のアクションを変更したり、修正コンテキストを注入する実行可能なガードレールとして機能する。
HASPは高度にモジュール化されており、直接エージェントループ介入の推論時間、構造化された監督を提供するためのポストトレーニング、または、検証された教師レビューされたPFの進化による自己改善に応用することができる。
経験的に、HASPは、Web検索、数学推論、コーディングタスクにおいて、トレーニング不要とトレーニングベースの両方の手法と比較して、大幅に向上している。
例えば、Web検索の推論では、推論時間PFだけで(マルチループ)ReAct Agentと比較して平均性能が25%向上し、ポストトレーニングと制御された進化はSearch-R1よりも30.4%向上した。
HASPに関するより深い知見を提供するため、我々のメカニズム分析は、PFがいかに引き起こし、介入するか、スキルが内部化されているか、そして安定したスキルライブラリ進化の要件を明らかにする。
関連論文リスト
- Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。