論文の概要: Learning While Acting: A Skill-Enhanced Test-Time Co-Evolution Framework for Online Lifelong Learning Agents
- arxiv url: http://arxiv.org/abs/2606.04815v1
- Date: Wed, 03 Jun 2026 12:38:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.752399
- Title: Learning While Acting: A Skill-Enhanced Test-Time Co-Evolution Framework for Online Lifelong Learning Agents
- Title(参考訳): 実行中の学習:オンライン生涯学習エージェントのためのスキル強化テストタイム共進化フレームワーク
- Authors: Bo Mao, Jie Zhou, Yutao Yang, Xin Li, Xian Wei, Qin Chen, Xingjiao Wu, Liang He,
- Abstract要約: 大規模言語モデル(LLM)エージェントが動的にインタラクティブな環境で動作するためには、生涯学習が不可欠である。
オンライン生涯学習エージェントのための2段階強化学習フレームワークであるSkill-enhanced Test-Time Co-Evolution(textttLifeSkill)を提案する。
- 参考スコア(独自算出の注目度): 32.49699221723716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lifelong learning is essential for Large Language Model (LLM) agents operating in dynamic, interactive environments. However, existing lifelong learning agents for long-horizon tasks typically depend on discrete skill or past experiences retrieval with static parameters during inference, which prevents them from continuously internalizing test-time feedback like human learners. To bridge this gap, we propose Skill-enhanced Test-Time Co-Evolution (\texttt{LifeSkill}), a two-stage reinforcement learning framework for Online Lifelong Learning Agents. Specifically, we design Verifier-Guided Skill Learning that addresses the lack of direct supervision for skill extraction by rewarding candidate skills according to the average verifier success of multiple skill-conditioned policy rollouts, encouraging the model to generate skills that are useful for solving tasks rather than merely plausible in text. Furthermore, we introduce Online Skill Internalization, which continuously improves the policy model during test-time interaction by transforming skill-conditioned trajectories into reward signals. This enables the agent to directly internalize reasoning capabilities into its parameters, avoiding the context bloat of experience retrieval. Experiments on LifelongAgentBench show that LifeSkill improves average performance by 7 absolute points by comparing with existing lifelong agent baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントが動的にインタラクティブな環境で動作するためには、生涯学習が不可欠である。
しかし, 従来の長期学習エージェントは, 通常, 推論中の静的パラメータによる個別スキルや過去の経験検索に依存し, 人間の学習者のようなテスト時間フィードバックを継続的に内部化するのを防ぐ。
このギャップを埋めるため,オンライン生涯学習エージェントのための2段階強化学習フレームワークであるSkill-enhanced Test-Time Co-Evolution(\texttt{LifeSkill})を提案する。
具体的には、複数のスキル条件付きポリシーのロールアウトにおける平均的検証成功に応じて、候補スキルに報酬を与えることによって、スキル抽出の直接的な監督の欠如に対処する検証者ガイド型スキル学習を設計し、単にテキストで検証できるのではなく、タスクの解決に有用なスキルを生成するようモデルに促す。
さらに,スキル条件付き軌道を報酬信号に変換することにより,テスト時間間相互作用におけるポリシーモデルの改善を継続的に行うオンラインスキル内部化を提案する。
これにより、エージェントは推論能力をパラメータに直接内部化し、経験検索のコンテキスト肥大を避けることができる。
LifelongAgentBenchの実験では、LifeSkillは既存のLifelongエージェントベースラインと比較して7つの絶対ポイントで平均性能を改善する。
関連論文リスト
- SkillEvolBench: Benchmarking the Evolution from Episodic Experience to Procedural Skills [31.23929961213889]
大規模言語モデル(LLM)エージェントは、現実世界のタスクを解きながら豊富なエピソード軌道を蓄積する。
SkillEvolBenchは、経験の再利用からスキル形成まで、このステップを評価するための診断ベンチマークである。
現在のエージェントは、しばしばローカルに適応するが、堅牢な再利用可能なスキルを形成することは滅多にない。
論文 参考訳(メタデータ) (2026-05-22T18:23:31Z) - Harnessing LLM Agents with Skill Programs [58.356514745548026]
HASPは、実行可能なプログラム関数(PF)にスキルをアップグレードする新しいフレームワークです。
PFは障害が発生しやすい状態を起動し、次のアクションを変更したり、修正コンテキストを注入する実行可能なガードレールとして機能する。
HASPは、Web検索、数学推論、コーディングタスクにおいて、トレーニング不要とトレーニングベースの両方の手法と比較して、大幅に向上している。
論文 参考訳(メタデータ) (2026-05-18T01:35:11Z) - SkillOS: Learning Skill Curation for Self-Evolving Agents [67.94374107466957]
本稿では,自己進化エージェントのスキルキュレーションを学習するための,経験駆動型RLトレーニングレシピであるSkillOSを提案する。
SkillOSは、凍結したエージェントエグゼキュータとトレーニング可能なスキルキュレーターを組み合わせて、蓄積したエクスペリエンスから外部SkillRepoを更新する。
SkillOSは、メモリフリーと強力なメモリベースラインを、有効性と効率の両方で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2026-05-07T17:31:50Z) - Reinforcement Learning for Self-Improving Agent with Skill Library [14.717149089634718]
大規模言語モデル(LLM)に基づくエージェントは、複雑な推論とマルチターン相互作用において顕著な機能を示した。
有望なアプローチの1つは、エージェントが新しいスキルを学び、検証し、適用できるスキルライブラリを実装することである。
スキルライブラリによるエージェントの自己改善能力を高めるための強化学習(RL)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2025-12-18T21:58:19Z) - Building Self-Evolving Agents via Experience-Driven Lifelong Learning: A Framework and Benchmark [57.59000694149105]
本稿では、自己進化エージェントを構築するためのフレームワークである、経験駆動型生涯学習(ELL)を紹介する。
ELLは、Experience Exploration、Long-term Memory、Skill Learning、Knowledge Internalizationの4つのコア原則に基づいて構築されている。
また、学生の総合的な大学旅行をシミュレートするELLのベンチマークデータセットであるStuLifeを紹介した。
論文 参考訳(メタデータ) (2025-08-26T13:04:28Z) - LifelongAgentBench: Evaluating LLM Agents as Lifelong Learners [51.518410910148816]
しかし、現在の大規模言語モデル(LLM)ベースのエージェントは、状態のままであり、時間とともに知識を蓄積または転送することができない。
LLMエージェントの生涯学習能力を体系的に評価するために設計された最初の統合ベンチマークであるLifelongAgentBenchを紹介する。
論文 参考訳(メタデータ) (2025-05-17T10:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。