論文の概要: Contextual Experience Replay for Self-Improvement of Language Agents
- arxiv url: http://arxiv.org/abs/2506.06698v1
- Date: Sat, 07 Jun 2025 07:47:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.438812
- Title: Contextual Experience Replay for Self-Improvement of Language Agents
- Title(参考訳): 言語エージェントの自己改善のための文脈経験リプレイ
- Authors: Yitao Liu, Chenglei Si, Karthik Narasimhan, Shunyu Yao,
- Abstract要約: 本稿では,言語エージェントに対する効率的な自己改善を実現するために,コンテキスト体験リプレイ(CER)を提案する。
CERは過去の経験を蓄積し、動的メモリバッファに合成する。
我々は WebArena と VisualWebArena のベンチマークで CER を評価した。
- 参考スコア(独自算出の注目度): 47.51006612841945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) agents have been applied to sequential decision-making tasks such as web navigation, but without any environment-specific experiences, they often fail in these complex tasks. Moreover, current LLM agents are not designed to continually learn from past experiences during inference time, which could be crucial for them to gain these environment-specific experiences. To address this, we propose Contextual Experience Replay (CER), a training-free framework to enable efficient self-improvement for language agents in their context window. Specifically, CER accumulates and synthesizes past experiences into a dynamic memory buffer. These experiences encompass environment dynamics and common decision-making patterns, allowing the agents to retrieve and augment themselves with relevant knowledge in new tasks, enhancing their adaptability in complex environments. We evaluate CER on the challenging WebArena and VisualWebArena benchmarks. On VisualWebArena, CER achieves a competitive performance of 31.9%. On WebArena, CER also gets a competitive average success rate of 36.7%, relatively improving the success rate of the GPT-4o agent baseline by 51.0%. We also conduct a comprehensive analysis on it to prove its efficiency, validity and understand it better.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、Webナビゲーションのようなシーケンシャルな意思決定タスクに応用されてきたが、環境固有の経験がなければ、これらの複雑なタスクでは失敗することが多い。
さらに、現在のLLMエージェントは、推論時間の間に過去の経験から継続的に学習するようには設計されていない。
そこで本研究では,文脈ウィンドウにおける言語エージェントの自己改善を効果的に行うための,トレーニング不要なフレームワークであるContextual Experience Replay (CER)を提案する。
具体的には、CERは過去の経験を蓄積し、動的メモリバッファに合成する。
これらの経験は、環境力学と一般的な意思決定パターンを含み、エージェントは、新しいタスクにおける関連する知識で自分自身を検索し、強化し、複雑な環境における適応性を高めることができる。
我々は WebArena と VisualWebArena のベンチマークで CER を評価した。
VisualWebArenaでは、CERは31.9%の競争性能を達成した。
WebArenaでは、CERは競争平均成功率36.7%を獲得し、GPT-4oエージェントのベースラインを51.0%改善した。
また、その効率性、妥当性を証明し、よりよく理解するために、包括的な分析を行う。
関連論文リスト
- REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites [9.58858258192147]
実世界のWebサイトの決定論的シミュレーションにおけるマルチターンエージェント評価のためのベンチマークおよびフレームワークであるREALを紹介する。
また、日々の複雑なユーザインタラクションを反映した112の実践的なタスクからなるベンチマークもリリースしています。
我々のフレームワークは、新しいタスクの容易な統合、再現可能な評価、スケーラブルな後学習データ生成をサポートします。
論文 参考訳(メタデータ) (2025-04-15T18:22:55Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - Evaluating Cultural and Social Awareness of LLM Web Agents [113.49968423990616]
CASAは,大規模言語モデルの文化的・社会的規範に対する感受性を評価するためのベンチマークである。
提案手法は,標準に違反するユーザクエリや観察を検知し,適切に応答するLLMエージェントの能力を評価する。
実験により、現在のLLMは非エージェント環境で大幅に性能が向上していることが示された。
論文 参考訳(メタデータ) (2024-10-30T17:35:44Z) - Large Language Models Can Self-Improve At Web Agent Tasks [37.17001438055515]
大規模言語モデル(LLM)は、ゼロショットまたは少数ショットの方法でエージェントとして新しい環境をナビゲートする機能を最近デモした。
WebArena ベンチマークを用いて,LLM が長期タスクにおけるエージェントとしての性能を自己向上する方法について検討した。
自己改善手順により,WebArenaベンチマークのベースモデルよりもタスク完了率を31%向上させる。
論文 参考訳(メタデータ) (2024-05-30T17:52:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。