論文の概要: Learning on the Job: An Experience-Driven Self-Evolving Agent for Long-Horizon Tasks
- arxiv url: http://arxiv.org/abs/2510.08002v1
- Date: Thu, 09 Oct 2025 09:40:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.989506
- Title: Learning on the Job: An Experience-Driven Self-Evolving Agent for Long-Horizon Tasks
- Title(参考訳): ジョブの学習: 長距離タスクのための経験駆動型自己進化エージェント
- Authors: Cheng Yang, Xuemeng Yang, Licheng Wen, Daocheng Fu, Jianbiao Mei, Rong Wu, Pinlong Cai, Yufan Shen, Nianchen Deng, Botian Shi, Yu Qiao, Haifeng Li,
- Abstract要約: 大規模言語モデルは、さまざまなドメインにまたがる顕著な機能を示しているが、現実の長期タスクのためのAIエージェントとしてそれらをデプロイする場合には、大きな課題が続く。
既存のLLMエージェントは、テスト時の静的であり、経験から学ぶことができず、知識を蓄積し、仕事を継続的に改善する能力が欠如している。
本稿では,階層型メモリモジュールを中心に,経験駆動型自己進化型システムを実現する新しいエージェントフレームワークであるMUSEを提案する。
- 参考スコア(独自算出の注目度): 42.78572295558531
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models have demonstrated remarkable capabilities across diverse domains, yet significant challenges persist when deploying them as AI agents for real-world long-horizon tasks. Existing LLM agents suffer from a critical limitation: they are test-time static and cannot learn from experience, lacking the ability to accumulate knowledge and continuously improve on the job. To address this challenge, we propose MUSE, a novel agent framework that introduces an experience-driven, self-evolving system centered around a hierarchical Memory Module. MUSE organizes diverse levels of experience and leverages them to plan and execute long-horizon tasks across multiple applications. After each sub-task execution, the agent autonomously reflects on its trajectory, converting the raw trajectory into structured experience and integrating it back into the Memory Module. This mechanism enables the agent to evolve beyond its static pretrained parameters, fostering continuous learning and self-evolution. We evaluate MUSE on the long-horizon productivity benchmark TAC. It achieves new SOTA performance by a significant margin using only a lightweight Gemini-2.5 Flash model. Sufficient Experiments demonstrate that as the agent autonomously accumulates experience, it exhibits increasingly superior task completion capabilities, as well as robust continuous learning and self-evolution capabilities. Moreover, the accumulated experience from MUSE exhibits strong generalization properties, enabling zero-shot improvement on new tasks. MUSE establishes a new paradigm for AI agents capable of real-world productivity task automation.
- Abstract(参考訳): 大規模言語モデルは、さまざまなドメインにまたがる顕著な機能を示しているが、現実の長期タスクのためのAIエージェントとしてそれらをデプロイする場合には、大きな課題が続く。
既存のLLMエージェントは、テスト時の静的であり、経験から学ぶことができず、知識を蓄積し、仕事を継続的に改善する能力が欠如している。
この課題に対処するため,我々は,階層型メモリモジュールを中心に,経験駆動型自己進化型システムを導入する新しいエージェントフレームワークであるMUSEを提案する。
MUSEは多様なレベルの経験を整理し、それらを複数のアプリケーションにまたがる長期タスクの計画と実行に活用する。
各サブタスクの実行後、エージェントはその軌道を自律的に反映し、生の軌道を構造化されたエクスペリエンスに変換し、メモリモジュールに統合する。
このメカニズムにより、エージェントは静的な事前訓練されたパラメータを超えて進化し、継続的な学習と自己進化を促進することができる。
長期生産性ベンチマークTACにおけるMUSEの評価を行った。
軽量のGemini-2.5 Flashモデルのみを使用して、大きなマージンで新たなSOTAパフォーマンスを実現する。
十分な実験は、エージェントが自律的に経験を蓄積するにつれて、より優れたタスク完了能力、堅牢な継続的学習と自己進化能力を示します。
さらに、MUSEから蓄積した経験は強力な一般化特性を示し、新しいタスクのゼロショット改善を可能にする。
MUSEは、現実の生産性タスク自動化が可能なAIエージェントの新しいパラダイムを確立する。
関連論文リスト
- Building Self-Evolving Agents via Experience-Driven Lifelong Learning: A Framework and Benchmark [57.59000694149105]
本稿では、自己進化エージェントを構築するためのフレームワークである、経験駆動型生涯学習(ELL)を紹介する。
ELLは、Experience Exploration、Long-term Memory、Skill Learning、Knowledge Internalizationの4つのコア原則に基づいて構築されている。
また、学生の総合的な大学旅行をシミュレートするELLのベンチマークデータセットであるStuLifeを紹介した。
論文 参考訳(メタデータ) (2025-08-26T13:04:28Z) - LifelongAgentBench: Evaluating LLM Agents as Lifelong Learners [51.518410910148816]
しかし、現在の大規模言語モデル(LLM)ベースのエージェントは、状態のままであり、時間とともに知識を蓄積または転送することができない。
LLMエージェントの生涯学習能力を体系的に評価するために設計された最初の統合ベンチマークであるLifelongAgentBenchを紹介する。
論文 参考訳(メタデータ) (2025-05-17T10:09:11Z) - Experiential Co-Learning of Software-Developing Agents [83.34027623428096]
大規模言語モデル(LLM)は、特にソフトウェア開発において、様々な領域に大きな変化をもたらした。
本稿では,新しいLLM学習フレームワークであるExperiential Co-Learningを紹介する。
実験では、このフレームワークにより、エージェントは、目に見えないソフトウェア開発タスクをより効果的に対処できることを示した。
論文 参考訳(メタデータ) (2023-12-28T13:50:42Z) - Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。
本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-19T15:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。