論文の概要: LifelongAgentBench: Evaluating LLM Agents as Lifelong Learners
- arxiv url: http://arxiv.org/abs/2505.11942v1
- Date: Sat, 17 May 2025 10:09:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.954436
- Title: LifelongAgentBench: Evaluating LLM Agents as Lifelong Learners
- Title(参考訳): LifelongAgentBench:LLMエージェントを生涯学習者として評価する
- Authors: Junhao Zheng, Xidi Cai, Qiuke Li, Duzhen Zhang, ZhongZhi Li, Yingying Zhang, Le Song, Qianli Ma,
- Abstract要約: しかし、現在の大規模言語モデル(LLM)ベースのエージェントは、状態のままであり、時間とともに知識を蓄積または転送することができない。
LLMエージェントの生涯学習能力を体系的に評価するために設計された最初の統合ベンチマークであるLifelongAgentBenchを紹介する。
- 参考スコア(独自算出の注目度): 51.518410910148816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lifelong learning is essential for intelligent agents operating in dynamic environments. Current large language model (LLM)-based agents, however, remain stateless and unable to accumulate or transfer knowledge over time. Existing benchmarks treat agents as static systems and fail to evaluate lifelong learning capabilities. We present LifelongAgentBench, the first unified benchmark designed to systematically assess the lifelong learning ability of LLM agents. It provides skill-grounded, interdependent tasks across three interactive environments, Database, Operating System, and Knowledge Graph, with automatic label verification, reproducibility, and modular extensibility. Extensive experiments reveal that conventional experience replay has limited effectiveness for LLM agents due to irrelevant information and context length constraints. We further introduce a group self-consistency mechanism that significantly improves lifelong learning performance. We hope LifelongAgentBench will advance the development of adaptive, memory-capable LLM agents.
- Abstract(参考訳): 動的環境で動作するインテリジェントエージェントには、生涯学習が不可欠である。
しかし、現在の大規模言語モデル(LLM)ベースのエージェントは、状態のままであり、時間とともに知識を蓄積または転送することができない。
既存のベンチマークはエージェントを静的システムとして扱い、生涯学習能力の評価に失敗する。
LLMエージェントの生涯学習能力を体系的に評価するために設計された最初の統合ベンチマークであるLifelongAgentBenchを紹介する。
データベース、オペレーティングシステム、知識グラフという3つのインタラクティブな環境にまたがって、自動ラベル検証、再現性、モジュールの拡張性を提供する。
広汎な実験により、従来の経験リプレイは、無関係な情報やコンテキスト長の制約により、LLMエージェントに対して限られた有効性を持つことが明らかとなった。
さらに,生涯学習性能を大幅に向上させるグループ自己整合性機構を導入する。
LifelongAgentBench が適応型メモリ対応 LLM エージェントの開発を進めることを願っている。
関連論文リスト
- Lifelong Learning of Large Language Model based Agents: A Roadmap [39.01532420650279]
連続的・漸進的な学習として知られる生涯学習は、人工知能(AGI)を前進させる重要な要素である
この調査は、生涯学習を大規模言語モデル(LLM)に組み込むための潜在的テクニックを体系的にまとめる最初のものである。
これらの柱が集合的に連続的な適応を可能にし、破滅的な忘れを軽減し、長期的なパフォーマンスを向上させる方法について強調する。
論文 参考訳(メタデータ) (2025-01-13T12:42:04Z) - RAG-Modulo: Solving Sequential Tasks using Experience, Critics, and Language Models [5.0741409008225755]
大規模言語モデル(LLM)は、ロボットの課題を解決するための有望なツールとして登場した。
既存のLSMベースのエージェントは、過去の相互作用を維持および学習する能力に欠ける。
RAG-Modulo は,過去のインタラクションを記憶した LLM ベースのエージェントを強化し,エージェントの判断を評価するための批判を取り入れたフレームワークである。
論文 参考訳(メタデータ) (2024-09-18T20:03:32Z) - ExpeL: LLM Agents Are Experiential Learners [57.13685954854463]
実験学習エージェント(ExpeL)を導入し、パラメトリック更新を必要とせずにエージェント体験から学習できるようにする。
我々のエージェントは、経験を自律的に収集し、学習課題の集合から自然言語を用いて知識を抽出する。
推論において、エージェントは抽出された洞察と過去の経験をリコールし、情報的決定を行う。
論文 参考訳(メタデータ) (2023-08-20T03:03:34Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。